OCR Parameter

Mit dem Webservice "OCR" kann eine Texterkennung in PDF-Dokumenten oder Grafiken durchgeführt werden.

 

Wenn die Erkennung von Grafiken durchgeführt wird, dann werden diese in PDF-Dokumente umgewandelt. Es wird für jede Grafik im PDF-Dokument eine Seite erstellt, die die ursprüngliche Grafik enthält und einen Text-Layer mit dem erkannten Text.

 

Eine Texterkennung von PDF-Dokumenten funktioniert nur für Dokumente, die nicht bereits Text enthalten. In der Regel sind dies Dokumente, die von Scannern erstellt werden und pro Seite nur eine Grafik im PDF-Dokument haben.

 

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<operation xmlns="http://schema.webpdf.de/1.0/operation">
<ocr language="deu"
      checkResolution="false"
      forceEachPage="true"
      imageDpi="200"
      outputFormat="pdf">
  <page width="210"
        height="297"
        metrics="mm"/>
</ocr>
</operation>

 

{
"ocr": {
  "language": "deu",
  "checkResolution": false,
  "forceEachPage": true,
  "imageDpi": 200,
  "outputFormat": "pdf",
  "page": {
    "width": 210,
    "height": 297,
    "metrics": "mm"
   }
 }
}

 

ocr-Element

 

Definiert die Erkennung von Texten in Grafiken oder PDF-Dokumenten.

 

<ocr language="deu"
    checkResolution="false"
    forceEachPage="true"
    imageDpi="200"
    outputFormat="pdf">

 

"ocr": {
  "language": "deu",
  "checkResolution": false,
  "forceEachPage": true,
  "imageDpi": 200,
  "outputFormat": "pdf",

   ...

}

 

language (Default: "eng")

Legt die Sprache für das Ausgangsdokument (PDF/Grafik) fest. Für die Ausführung der Texterkennung (OCR) muss die Sprache festgelegt werden, um "Sonderzeichen" (z.B. "üäö" in Deutsch) der jeweiligen Sprache besser erkennen zu können. Aktuell werden die folgenden Sprachen unterstützt:

eng = Englisch

fra = Französisch

spa = Spanisch

deu = Deutsch

ita = Italienisch

 

checkResolution (Default: true)

Wenn "true", dann wird die Ausgangsdatei auf die DPI-Auflösung geprüft. Auflösungen kleiner 200 DPI werden dabei abgewiesen, da sie in der Regel zu keinem guten Ergebnis bei der Texterkennung führen.

 

forceEachPage (Default: false)

Enthält ein PDF-Dokument auf einer beliebigen Seite textlichen Inhalt, so wird der Webservice eine erneute Texterkennung ablehnen. Wenn allerdings diese Option mit dem Wert "true" übergeben wird, so werden sämtliche Seiten des Dokuments einzeln betrachtet und für sämtliche Seiten, die noch keinen Text(-Layer) enthalten, eine Texterkennung durchgeführt und ein neuer Layer mir Text erzeugt.

 

imageDpi (Default: 200)

Setzt die minimale Auflösung von Ausgangsdateien.

 

outputFormat (Default: "pdf")

Bei der Texterkennung können unterschiedliche Ausgabeformate erstellt werden. In der Regel wird das Dokument als PDF-Dokument erstellt, auf Wunsch kann die Ausgabe aber auch als ASCII-Dokument oder als XML-Dokument (HOCR) erfolgen.

text = Text

hocr = XML (HOCR)

pdf = PDF

 

page-Element

 

Wenn Grafiken während der Texterkennung in PDF-Dokumente umgewandelt werden, dann wird die Größe der Seite an Hand der Größe der Grafik - unter Beachtung der DPI-Auflösung - berechnet. Über dieses Element kann eine individuelle Größe der Seite festgelegt.

 

<page width="210"
    height="297"
    metrics="mm"/>
 

"page": {
"width": 210,
"height": 297,
"metrics": "mm"
}

 

width (Default: 210)

height (Default: 297)

Höhe und Breite der Seite im PDF-Dokument.

 

metrics (Default: "mm")

Einheit für die Größenangabe der Seite.

mm = Millimeter