Stefan's Weblog

25Jan/080

pdftotext – PDF-Dateien in Text-Dateien umwandeln

Mit pdftotext lassen sich ganz einfach PDF-Dokumente in reinen Text umwandeln. Das Programm hat keine grafische Oberfläche und läßt sich deshalb nur über die Konsole steuern.

Installation

pdftotext ist in den Paketen

  1. poppler-utils
  2. und

  3. xpdf-utils

enthalten.
Es ist jedoch nur nötig eines von beiden Programmen zu installieren. Der Befehl dazu lautet
sudo apt-get install <paketname>

Anleitung

Zum Umwandeln von PDF-Dokumenten in Text-Dateien gibt es 3 Möglichkeiten:

  1. pdftotext <dokumentname>.pdf:
    Das PDF-Dokument wird in eine Text-Datei umgewandelt.
  2. pdftotext -layout <dokumentname>.pdf:
    Beim umwandeln von PDF zu Texyt wird versucht das Layout des PDF-Dokuments beizubehalten.
  3. pdftotext -f 3 -l 7 <dokumentname>.pdf:
    Aus einem PDF-Dokument werden nur bestimmte Seiten in Text umgewandelt. Dies geht mit den Parametern -f (für first page) und -l (für last page). Im Beispiel werden die Seiten 3 bis einschließlich 7 umgewandelt.
  4. Den Text in der umgewandelten Text-Datei kann man mit Strg+C kopieren und z.B. in eine Textdatei bei OpenOffice.org einfügen. Dabei wird dann für jede PDF-Seite eine eigene Seite verwendet.
    !!!Falls Bilder im PDF-Dokument enthalten sind, werden diese auch in Text umgewandelt und werden ziemlich verschoben!!!

    hat dir dieser Artikel gefallen?

    Dann abonniere doch diesen Blog per RSS Feed!

Kommentare (0) Trackbacks (0)

Zu diesem Artikel wurden noch keine Kommentare geschrieben.


Leave a comment

Noch keine Trackbacks.