Inhaltsentnahme

Mit dem Dienst "Inhaltsentnahme"

 

icon extract content

 

stellt das Portal die Funktion zur Entnahme von verschiedenen Inhalten zur Verfügung.

 

Der Dienst "Inhaltsentnahme" basiert auf dem Webservice "Toolbox".

 

Entnahme von Inhalten

 

Über den Dialog wählen Sie die Art des Inhaltes, den Sie aus der Eingangsdatei "PDF" extrahieren möchten. Der Dienst unterstützt "Text", "URL" und "Wörter".

 

hint

Damit der Dienst die entsprechenden Informationen extrahieren kann, muss das PDF-Dokument die Operationen zur Entnahme von Inhalten erlauben (Sicherheitseinstellungen des PDF-Dokuments).

 

dialog extraction

 

Die Option "Text" erlaubt Ihnen die Entnahme des textlichen Inhalts aus der PDF-Datei.

 

Die Funktion "URL" entnimmt alle Links aus dem PDF-Dokument, sofern diese als Link-Objekte im PDF definiert sind. Ein Auffinden von URLs, die im Text stehen und nicht als Objekt im PDF erstellt sind, können Sie mit der Option "URLs aus text entnehmen" aktivieren.

 

Die Funktion "Wörter" erstellt eine Datei mit den einzelnen Wörtern des PDF-Dokuments. Zusätzlich stehen für die Wortentnahme verschiedene Optionen zur Verfügung. Mit der Option "Nach Satzzeichen neues Wort beginnen", wird nach jedem Satzzeichen ein neues Wort begonnen. Die Option "Satzzeichen entfernen" gibt an ob Satzzeichen in den extrahierten Wörtern enthalten sein sollen. "Anführungszeichen und Apostrophe als Umklammerung verwenden" gibt an ob Anführungszeichen und Apostrophe wie andere Umklammerungszeichen (z.B. runde oder eckige Klammern) behandelt werden sollen, also dem umklammerten Wort vorangestellt werden sollen.

 

Beispiele Für eine Umklammerung:

 

Ausgangstext:

Mit aktiver Umklammerung

Ohne aktive Umklammerung

Anfang "umklammerter Text"

Anfang

"umklammerter

Text"

Anfang "

umklammerter

Text"

Anfang "Text"

Anfang

"Text"

Anfang "

Text"

Anfang 'umklammerter Text'

Anfang

'umklammerter

Text'

Anfang '

umklammerter

Text'

Anfang 'Text'

Anfang

'Text'

Anfang '

Text'

Anfang (umklammerter Text)

Anfang

(umklammerter

Text)

Anfang

(umklammerter

Text)

Anfang (Text)

Anfang

(Text)

Anfang

(Text)

 

Mit dem Seitenbereich können Sie festlegen, welche Seiten in die Inhaltsentnahme eingeschlossen werden sollen. Hier sind Seitenangaben wie z.B. "1", "1-10" oder "1-5,8" möglich.

 

Mehr zur Seitenauswahl unter dem Kapitel Seitenfunktionen.