Inhalte entnehmen

Mit dem extraction Operation-Element lassen sich verschiedene (Text-)Inhalte extrahieren.

 

Innerhalb des extraction-Elementes können zu diesem Zweck verschiedene Elemente für den zu extrahierenden Inhalt eingefügt werden.

 

Diese sind:

 

text = Textinhalt des PDF-Dokuments

Erstellt eine ASCII Text-, XML- oder JSON-Datei, die beim Aufruf des Webservice als Ergebnis geliefert wird und alle Texte des PDF-Dokuments enthält.

 

links = Alle Links im PDF-Dokument

Erstellt eine ASCII Text-, XML- oder JSON-Datei, die beim Aufruf des Webservice als Ergebnis geliefert wird und alle ausgewählten unterstützten Links des PDF-Dokuments enthält. In der ASCII-Datei wird dabei jeder Link in eine eigene Zeile geschrieben.

 

info = Allgemeine Informationen über das PDF-Dokument

Erstellt eine XML- oder JSON-Datei, die beim Aufruf des Webservice als Ergebnis geliefert wird. Die Datei enthält Informationen über das PDF-Dokument, wie z.B. die Sicherheitseinstellungen, PDF-Eigenschaften oder den PDF/A-Status.

 

words = Alle Wörter im PDF-Dokument mit Seiten- und Positionsangabe

Erstellt eine ASCII Text-, XML- oder JSON-Datei, die beim Aufruf des Webservice als Ergebnis geliefert wird. Die Datei enthält zu jedem enthaltenen Wort den Text, die Seitennummer sowie die X und Y Koordinate in der jeweiligen Seite für das Wort. Im TEXT-Ausgabeformat wird nur der Text der Wörter, getrennt durch Zeilenumbrüche, ausgegeben.

 

paragraphs = Textinhalt des PDF-Dokuments separiert nach Paragraphen

Erstellt eine ASCII Text-, XML- oder JSON-Datei), die beim Aufruf des Webservice als Ergebnis geliefert wird und alle Texte des PDF-Dokuments, separiert nach Paragraphen enthält.

Die Paragraphen müssen dafür als Elemente im PDF vorhanden sein. Eine rein optische Trennung hat keine Auswirkung!

 

images = Bildinhalte des PDF-Dokuments

Erstellt eine ZIP-Datei, die beim Aufruf des Webservice als Ergebnis geliefert wird. Die Datei enthält sämtliche auf Seitenebene enthaltenen Bilder aus einem frei wählbaren Seitenbereich.

 

tipp

Das Format des Dokuments, das bei der "extraction" Operation entsteht, wird über das Schema http://schema.webpdf.de/1.0/extraction/text.xsd für "<text>", "<links>", "<words>" und "<paragraphs>" beschrieben und für "<info>" über das Schema http://schema.webpdf.de/1.0/extraction/info.xsd.

 

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<operation xmlns="http://schema.webpdf.de/1.0/operation">
<extraction>
  <text pages="" fileFormat="xml"/>
</extraction>
</operation>

{
"extraction": {
  "text": {
    "pages": "",
    "fileFormat": "xml"
   }
 }
}

 

Allgemeine Attribute für die Inhaltselemente:

 

pages (Default: "")

Legt fest, welche Seite(n) für den Entnahme-Modus  verwendet werden sollen. Bei der Seitennummer kann entweder eine einzelne Seite, ein Seitenbereich oder eine Auflistung (getrennt mit Komma) angegeben werden (Bsp. "1,5-6,9"). Ein leerer Wert oder "*" wählt alle Seiten des PDF-Dokuments.

 

fileFormat (Default: "xml")

Legt das Ausgabeformat für die zu extrahierenden Textinhalte des PDF-Dokuments fest.

 

text = Textdokument

xml = XML-Dokument

json = JSON Datenstruktur

 

 

Spezielle Attribute für das Inhaltselement words:

 

delimitAfterPunctuation (Default: true)

Wenn das Attribut auf true steht wird nach jedem Satzzeichen ein neues Wort begonnen.

 

extendedSequenceCharacter (Default: false)

Das Attribut gibt an, ob Anführungszeichen und Apostrophe wie andere Umklammerungszeichen (z.B. runde oder eckige Klammern) behandelt werden sollen, also dem umklammerten Wort vorangestellt werden sollen. Ein Beispiel hierzu finden Sie in der Portalbeschreibung.

 

removePunctuation (Default: false)

Legt fest ob Satzzeichen im Export enthalten sein sollen oder ob Sie explizit entfernt werden sollen.

 

 

Das Element links enthält noch das Subelement text:

 

links-Element

 

<links pages="" fileFormat="xml">
<text fromText="true" protocol="http" withoutProtocol="true"/>
</links>

"links": {
"text": {
  "fromText": true,
  "protocol": "http",
  "withoutProtocol": true,
 }
}

 

text-Element

 

<text fromText="true"

     protocol="http"

     withoutProtocol="true"/>
 

"text": {
"fromText": true,
"protocol": "http",
"withoutProtocol": true,

}

 

fromText (Default: false)

Erweiterter Modus zum extrahieren von Links. Hierbei werden Links nicht aus Annotationen sondern direkt aus dem Text extrahiert. Dies bedeutet das Links die im Standartmodus nicht gefunden werden hiermit gefunden werden können, sofern sie als Text vorliegen.

 

protocol (Default: "")

Bietet die Möglichkeit zu extrahierende Links nach Protokollen zu filtern. Dabei werden mehrere Protokolle durch Kommata getrennt(zum Beispiel "http,https,ftp"). Mögliche Werte sind 'http','https','ftp', 'telnet','mailto', 'file', 'nntp' und 'notes'.

 

withoutProtocol (Default: true")

Bei Aktivierung werden beim Extrahieren von Links aus Text auch unvollständige URLs, bei denen die Protokollangabe fehlt extrahiert. Dies betrifft beispielsweise folgende Beispiele:

'www.webpdf.de' - Es ist kein Protokoll angegeben. Wenn die Option aktiviert ist und 'http'-Links gesucht werden wird der Link dennoch extrahiert.

'ftp.softvision.de' - Auch hier ist kein Protokoll angegeben. Wenn die Option aktiviert ist und 'ftp'-Links gesucht werden wird der Link dennoch extrahiert.

 

images-Element

 

<images fileFormat="zip"

     pages="*"

     fileNameTemplate="file[%d]"

     folderNameTemplate="page[%d]"

     fallbackFormat="png"/>

"images": {
"fileFormat": "zip",

"pages": "*",

"fileNameTemplate": "file[%d]",

"folderNameTemplate": "page[%d]",

"fallbackFormat": "png"

}

 

hint

Der Modus images erlaubt lediglich die Extraktion von Rastergrafiken. Die Extraktion von Vektorgrafiken oder die Generierung solcher aus vektoriellen Zeichenpfaden wird nicht unterstützt.

 

hint

Der Modus images unterstützt aus lizenzrechtlichen Gründen derzeit  nur die Extraktion von unerweiterten JPEG2000 Bildern nach der Kerndefinition Part 1 gemäß ISO/IEC 15444-1.

 

hint

Es kann nicht garantiert werden, dass ein Bild im ursprünglichen Quellformat exportiert wird, da das Bild möglicherweise schon bei der Einbettung in das PDF konvertiert wird. (Abhängig davon ob das Quellformat durch den PDF Standard unterstützt wird oder nicht und von der zur Einbettung genutzten Applikation.)

 

fileFormat (Default: "zip")

Legt das Ausgabeformat für die zu extrahierenden Bilder des PDF-Dokuments fest.

 

zip = ZIP-Archiv

 

pages (Default: "")

Legt fest, welche Seite(n) für den images-Modus  verwendet werden sollen. Bei der Seitennummer kann entweder eine einzelne Seite, ein Seitenbereich oder eine Auflistung (getrennt mit Komma) angegeben werden (Bsp. "1,5-6,9"). Ein leerer Wert oder "*" wählt alle Seiten des PDF-Dokuments.

 

fileNameTemplate (Default: "file[%d]")

Setzt das Template für die Bilddateien in der zurückgelieferten ZIP-Datei. "file[%d]" würde beispielsweise zum Eintrag "file[1].png" für ein PNG Bild führen.

 

folderNameTemplate (Default: "page[%d]")

Setzt das Template für die Seiten-Ordner in der zurückgelieferten ZIP-Datei. "page[%d]" würde beispielsweise zu Ordner "page[1]" für Seite 1 und so weiter führen.

 

fallbackFormat (Default: "png")

Legt das Format fest auf das zurück gefallen wird, sobald die Extraktion eines Bildes ein Format voraus setzt, dessen Erzeugung nicht unterstützt wird.

 

png = PNG-Datei

jpeg = JPEG-Datei