pdftotext – PDF-Dateien in Text-Dateien umwandeln

Mit pdftotext lassen sich ganz einfach PDF-Dokumente in reinen Text umwandeln. Das Programm hat keine grafische Oberfläche und läßt sich deshalb nur über die Konsole steuern.

Installation

pdftotext ist in den Paketen

  1. poppler-utils
  2. und

  3. xpdf-utils

enthalten.
Es ist jedoch nur nötig eines von beiden Programmen zu installieren. Der Befehl dazu lautet
sudo apt-get install <paketname>

Anleitung

Zum Umwandeln von PDF-Dokumenten in Text-Dateien gibt es 3 Möglichkeiten:

  1. pdftotext <dokumentname>.pdf:
    Das PDF-Dokument wird in eine Text-Datei umgewandelt.
  2. pdftotext -layout <dokumentname>.pdf:
    Beim umwandeln von PDF zu Texyt wird versucht das Layout des PDF-Dokuments beizubehalten.
  3. pdftotext -f 3 -l 7 <dokumentname>.pdf:
    Aus einem PDF-Dokument werden nur bestimmte Seiten in Text umgewandelt. Dies geht mit den Parametern -f (für first page) und -l (für last page). Im Beispiel werden die Seiten 3 bis einschließlich 7 umgewandelt.
  4. Den Text in der umgewandelten Text-Datei kann man mit Strg+C kopieren und z.B. in eine Textdatei bei OpenOffice.org einfügen. Dabei wird dann für jede PDF-Seite eine eigene Seite verwendet.
    !!!Falls Bilder im PDF-Dokument enthalten sind, werden diese auch in Text umgewandelt und werden ziemlich verschoben!!!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.