OCR-Tools zum Digitalisieren von Papierdruck

(Last Updated On: 31. August 2015)

Wenn Sie die inhalte von bedruckten Papiermedien digitalisieren wollen, nutzen Sie OCR-Tools. Ein OCR-Tool nimmt das als .pdf- oder Bilddatei eingescannte dokumente und gibt es digitalisiert beispielsweise Word-Dokument aus, so dass Sie den Text in digitalier Form vorliegen haben und ihn kopieren oder bearbeiten können. Zwar gibt es auch Online-Tools, welche diese Möglichkeit bieten, Dokumente hochzuladen und dann eine Ausgabedatei zu erzeugen, diese bieten jedoch nicht die Features von Desktop-Tools, die für wirklich gute Ergebnisse notwendig sind. Wenn Sie beispielsweise mehrere Seiten eines Buches einscannen, dann werden sie diese wahrscheinlich so einscannen, dass die Seiten im Dokument / Bild dann auf der Seite liegen. Das heißt, das Tool muss entweder das gescannte dokument automatisch drehen oder Ihnen zumindest die Möglichkeit bieten, dies zu tun.

Desweiteren muss das Tool dazu in der Lage sein, auch deutsche Umlaute einzuscannen. Bei deutschen Texten ist es sehr frustrierend, wenn Sie ein Online-Tool nutzen, welches keine deutschen Umlaute kann. Diese müssen Sie dann manuell nachsetzen.

Und zu guter letzt, brauchen Sie noch die Möglichkeit, einen Bereich auszuwählen. Eventuell werden die Scans Ihrer Buchseiten nämlich die Vorder- oder Nachfolgeseite halb mit drauf haben. Diese wollen Sie natürlich nicht mit analysieren. Ansonsten vermischt das OCR-Tool unter Umständen die Seiten miteinander und Sie müssen den Datensalat danach manuell wieder auseinanderfriemeln.

Noch ein kleiner tipp für die Praxis: Je granularerer die relative Auflösung Ihrer Scans, desto genauere Ergebnisse erhalten Sie später. Eine relative Auflösung von 200 dpi ist das absolute Minimum, empfohlen ist aber eine Auflösung von mindestens 300 dpi. Wenn Sie mehr einstellen können, sollten Sie das auch tun.

Wesentlichen Einfluss auf die Erkennungsrate von Bücherseiten hat auch, ob Sie die Scanabdeckung ausreichend beschweren, so dass das Buch platt gedrückt wird. Denn nur so erhalten Sie einen Scan, bei welchem die ganze Seite ohne eine Schattierung vom Lichtbogen abgetastet wird. Liegt ein Teil der Schrift im Schatten, wird dieser teil nicht mehr zuverlässig erkannt.

Zum Abschluss stelle ich Ihnen nun drei Tools vor, welche die oben genannten Features bieten. Der absolute Platzhirsch, der nicht bestandteil dieses Posts ist, ist die Lösung Adobe Acrobat, welche standardmäßig in der Adobe Creative Suite vorhanden ist.

FreeOCR

Free OCR ist kostenlos und bietet alle notwendigen Features wie Bereichsauswahl, Rotieren des gescannten Dokumentes, Umlauterkennung usw. Es akzeptiert sowohl mehrseitige PDF-Dokumente als auch Bilder und kann direkt als Plain-Text, RTF- oder DOC-Dokument ausgeben. Von daher eigentlich alles was man braucht.

2015-08-29_20h53_11

Wie Sie an dem Screenshot im klar erkennbaren und daher nicht von mir zensierten Bereich erkennen können, liefert es bei einer Auflösung von 600 dpi, die ich im Test mit einem A4-Buch verwendet habe, klare und absolut verwertbare Ergebnisse.

Canon Pixma Treiber für Multifunktionsdrucker

Die meisten heutigen Multifunktionsdrucker von namhaften Herstellern wie Canon oder HP bieten bereits einen integrierten OCR-Treiber an. Bei einem Canon Pixma beispielsweise müssne Sie das Canon IJ scan utility installiert haben. STarten Sie das tool und wählen Sie im Startfenster erstmal Einstellungen.

2015-06-28_00h14_07

Im daruffolgenden Fenster gehen Sie auf den Reiter Document Scan und dann aktivierne Sie unter Application settings die option Start OCR. Danach müssne Sie eine Applikation auswählen, welche das Resultat öffnen soll. DAuz eignet sich beispielsweise die Canon Software my image Garden

2015-06-28_00h16_02

Klicken Sie nun auf OK und wählen im Hauptfenster des IJ Scan utility Document aus. Der Scanvorgang wird gestartet. Das Dokument an sich wird wie im Scanvorgang gewohnt ganz normal als .jpeg oder .pdf abgespeichert, während der im Scanvorgnag extrahierte Text in ein Editor-Fenster eingefügt wird, von wo aus Sie den Text herauskopieren können. Das ist eine wunderbar einfache Möglihckeit, um seine Studienunterlagen zu digitalisieren.

kommandozeilentools

die meisten OCR-Tools auf Kommandozeileneben akzeptieren keine Bilder in klassischen Bildformaten wie .jpeg, .jpg, .gif oder .png, sondern brauchen ein sogenanntes Portable Anymap Format, also eine Bilddate in den foramten .pbm, .pgm oder .ppm. Dabie werden Sie bei den mesiten Multifunktionsdruckern ein Problem haben, da diese meist nur als .jpeg, .png oder .tiff-Datei scannen können. DAs heißt, Sie müssen das bild nachträglich konvertieren. und das wiedeurm machen Sie mit imageMagick

Installieren Sie imagemagick ganz einfach auf dem Linux-System

apt-get install imagemagick

und konvertieren sie das Bild in ein gewünschtes zielformat

convert quelle.png output.pbm

Nun liegt das bild im richtigen Format vor und sie können es mit allen Kommandozeilen-OCR-tools nutzen.

Wenn Sie einfach nur die originalbilder nehmen und die unten aufgeführten OCR-Werkzeuge nutzen, werden Sie merkne, dass Sie nur sehr schwer brauchbare resultate bekommen. Sie können die Erfoglswahrschienlihckeit erhöhne, indem Sie von den Bildern vor der konvertierung in das richtige zielformat die auflösung nachträglich erhöhen. Sie können beispielsweise ien Bild mit 200 px Breite in ein Bild mit 1000 px Breite verwandeln (Seitenverhältnis wird beibehalten)

convert <quelldatei> -resize 1000 <zieldatei>

Dadurch verschlechtert sich natürlich die qualität des Bildes. Sie sollten daher die Bilder, die sie auf ihrem System einbinden wollen immer von den Bildenr trennen, von denen sie den Text per OCr einlesen.

Für richtig brauchbare Ergebnisse müssen Sie die Auflösung schon noch ein wenig größer machen. Wir haben das Bild hier im Beispiel ungefähr auf das Fünffache erhöht, in der Praxis sollten Sie jedoch sogar auf das Fünfzigfache erhöhen, also

convert <quelldatei> -resize 5000 <zieldatei>

gocr

gocr ist wohl das älteste Tool im OCR-Bereich auf kommandozeilenebene. es akzeptiert standardmäßig ausschließ´lich PNM-basierte Dateien, also Dateien im Format .pgm, pbm, .ppm oder .pcx. Wenn Sie jedoch die folgenden pakete installieren

apt-get install gzip bzip2 netpbm-progs

dann kann das Tool auch .png, .jpg, .jpeg, .tiff, .gif, .bmp und sogar .gz- und .bz2-komprimierte PNM-Dateiformate.

tesseract-ocr ist eine kommandozeilenbasierte Lösung auf Kommandozeilenebene für Linux-Systeme.

gocr -i <quelldatei>

Der erkannte Text wird dann in der Kommandozeile direkt ausgegeben.

ocrad

auch ocrad liest standardmäßig nur pnm-basierte Dateiformate und bietet unter keinen Umständen Unterstützung für gängigere format wie JPEG oder PNG. Eine Konvertierung biespielsweise mit Imagemagick ist daher unumgänglich.

ocrad <quelldatei>

tesseract-ocr

tesseract-ocr funktioniert wiederum ausschließlich mit .tif-Dateien, also nicht mit JPEg, nicht mit PNG, GIF, aber auch nicht mit pnm-basierten Dateiformaten.

tesseract <quelldatei> output | cat output.txt

die pipe bruachen wir, weil tesseract erst eine Datei output.txt erstellt, die wir nachher ausgeben müssen, damit wir das Ergbenis auf der kommadnozeile angezigt bekommen.

Fazit

Wenn Sie alle drei Lösungen ausprobieren werdne Sie merken, dass tesseract-ocr am besten funktioniert. Mit fünfzigfacher Auflösung bekommen Sie schon recht gute und brauchbare Ergebnisse. Bei gocr und ocard hingegen kriege ich bei größter Anstrengung noch nichts brauchbares raus, von daher kann ich wirklich nur tesseract für den produktiven Einsatz empfehlen.

Andreas Loibl ist SAP-Berater, Ethical Hacker und Online Marketing Manager und schreibt auf seinem Blog DaFRK Blog über verschiedene Themen in den Sektoren Projektmanagement, Informationstechnik, Persönlichkeitsentwicklung, Finanzen und Zeitmanagement.

DaFRK

Andreas Loibl ist SAP-Berater, Ethical Hacker und Online Marketing Manager und schreibt auf seinem Blog DaFRK Blog über verschiedene Themen in den Sektoren Projektmanagement, Informationstechnik, Persönlichkeitsentwicklung, Finanzen und Zeitmanagement.

Das könnte Dich auch interessieren...

Kommentar verfassen

This site uses Akismet to reduce spam. Learn how your comment data is processed.