Optische Texterkennung (OCR)

Für die Texterkennung (OCR), d.h. zur Umwandlung von Grafikformaten in PDF-Dokument mit textlichen Inhalten, verwendet webPDF die integrierte Toolbox "tesseract" in der Version 3.04. Die Toolbox wird von dem Weberservice "OCR" bzw. der Portalseite verwendet.

 

Die externe Toolbox befindet sich in dem Unterverzeichnis "tesseract/" im Installationsverzeichnis von webPDF.

 

Mit dem Webservice "OCR" werden Ausgangsdokument, die als Grafik in den Formaten TIFF, JPEG oder PNG vorliegen, in ein PDF-Dokument umgewandelt. Dabei wird ein PDF-Dokument erstellt, das sichtbar die Grafik enthält und dahinter (in einem PDF-Layer) den per OCR bestimmten Text. Dadurch ist ein PDF-Dokument wieder durchsuchbar und kann z.B. indiziert werden.

 

Die Toolbox "tesseract" ist eine frei verfügbare OCR-Engine. Sie liefert, sofern die Ausgangsgrafiken mindestens 200 DPI haben, eine gute Erkennungsleistung. Trotzdem muss beachtet werden, das diese Erkennung nicht fehlerfrei ist. Grafiken, die auf eine Auflösung kleiner 200 DPI haben, führen oft zu keinen guten Resultaten. Außerdem ist zu beachten, das die OCR-Engine keine Handschriften (oder ähnliche Fonts) unterstützt.

 

Bei der Nutzung des Webservice ist es weiterhin wichtig, die Sprache des Ausgangsdokuments anzugeben, um "Sonderzeichen" (wie z.B. "öäü" bei Deutsch) der jeweiligen Sprache zu erkennen. Zur Zeit werden die folgenden Sprachen unterstützt (siehe "language" Parameter):

 

Englisch

Französisch

Spanisch

Deutsch

Italienisch

 

Weitere Sprachen lassen sich einrichten, sondern diese im Ordner "tesseract/tessdata" abgelegt werden und in der Datei "tesseract/languages.xml" ein entsprechender Eintrag hinzugefügt wurde.

 

hint

Zur Zeit werden keine Sprachen unterstützt, die ein "Multibyte Character Set" (MBCS) verwenden. Dies sind z.B. die asiatischen oder arabischen Sprachen.