Stefan's Weblog Blog über alle möglichen Dinge rund um den Computer

25Jan/080

pdftotext – PDF-Dateien in Text-Dateien umwandeln

Mit pdftotext lassen sich ganz einfach PDF-Dokumente in reinen Text umwandeln. Das Programm hat keine grafische Oberfläche und läßt sich deshalb nur über die Konsole steuern.

Installation

pdftotext ist in den Paketen

  1. poppler-utils
  2. und

  3. xpdf-utils

enthalten.
Es ist jedoch nur nötig eines von beiden Programmen zu installieren. Der Befehl dazu lautet
sudo apt-get install <paketname>

Anleitung

Zum Umwandeln von PDF-Dokumenten in Text-Dateien gibt es 3 Möglichkeiten:

  1. pdftotext <dokumentname>.pdf:
    Das PDF-Dokument wird in eine Text-Datei umgewandelt.
  2. pdftotext -layout <dokumentname>.pdf:
    Beim umwandeln von PDF zu Texyt wird versucht das Layout des PDF-Dokuments beizubehalten.
  3. pdftotext -f 3 -l 7 <dokumentname>.pdf:
    Aus einem PDF-Dokument werden nur bestimmte Seiten in Text umgewandelt. Dies geht mit den Parametern -f (für first page) und -l (für last page). Im Beispiel werden die Seiten 3 bis einschließlich 7 umgewandelt.
  4. Den Text in der umgewandelten Text-Datei kann man mit Strg+C kopieren und z.B. in eine Textdatei bei OpenOffice.org einfügen. Dabei wird dann für jede PDF-Seite eine eigene Seite verwendet.
    !!!Falls Bilder im PDF-Dokument enthalten sind, werden diese auch in Text umgewandelt und werden ziemlich verschoben!!!

    Tags: pdftotext, Software

    hat dir dieser Artikel gefallen?

    Dann abonniere doch diesen Blog per RSS Feed!

Kommentare (0) Trackbacks (0)

Zu diesem Artikel wurden noch keine Kommentare geschrieben.


Leave a comment

Noch keine Trackbacks.

%d Bloggern gefällt das: