Text aus PDF Datei extrahieren »

Geschützte PDF drucken – Text kopieren

Geschützte PDF drucken

Möchte man eine geschützte PDF Datei ausdrucken oder den Text herauskopieren, um beispielsweise den Inhalt des Dokuments zu übersetzen, zu bearbeiten und hat Passwort nicht vorliegen, bzw. der Kunde hat dieses selbst nicht vorliegen und benötigt dennoch dafür eine Übersetzung oder entsprechende Schreibdienstleistung, steht man mehr oder weniger vor dem Problem den Text abtippen zu müssen oder man sucht nach passenden Lösungen wie man sich diese Arbeit ersparen kann.

Eine Möglichkeit den Text zumindest erst einmal ausdrucken (bei einer geschützten PDF > Einstellung > Drucken unzulässig) zu können, lässt sich relativ einfach mit Open Source Software lösen. Dazu benötigt man lediglich GIMP oder ein anderes Freeware-Programm zum Bearbeiten von Bildern. Bzw. ist GIMP wahrscheinlich am ehesten geeignet, weil man hiermit eben PDF-Dokumente öffnen kann.

Dabei ist zu beachten, dass man beim Öffnen der Datei die Auflösung auf mindestens 300 Pixel einstellt, damit der Ausdruck nicht zu pixlig wird. Kleiner Nachteil ist, dass die einzelnen Seiten als Ebenen in GIMP geöffnet werden und man zwangsläufig dann die einzelnen Ebenen/Bilder einzeln ausdrucken muss. Bei PDF-Dokumenten mit wenig oder nur einer Seite aber eine gute Alternative zur Abtippen.

Texterkennung in PDF Dokumenten

Da es aber wie in meinem Beispiel ja um eine Übersetzung geht, sprich, ein Ausdruck der Datei nicht all zu viel Sinn macht, müsste man im nächsten Schritt das Dokument durch eine Texterkennungssoftware jagen.

Wie im Beitrag „OCR PDF Software Open Source – Freeware “ aber schon beschrieben, gibt es bis Dato leider keine vernünftige Open Source Lösung, um Bilddokumente oder PDF-Dateien per OCR auszulesen.

Ich habe bei der Gelegenheit die kostenlosen Lösungen von Google OCR via Docs und Free-OCR getestet. Hier Daten zum Testlauf:

OCR Test-Dokument GoogleOCR Test Dokument – Screenshot – Auflösung gering.
Quelle: Link. Abruf 16.04.10

Ausgangsdokument: Eine PDF von Google – „Machen Sie Ihre Website erfolgreich.“

Bildgröße / Auflösung:

Mit GIMP geöffnet – 1833 x 1833 px – 300 px

Nur Seite 2 des Dokuments

Dateiformat:

Ursprünglich sollte es TIF werden, welches aber von Google’s OCR nicht unterstützt wird

-> GIF-Format

In Google Docs wurde gar kein Scan-Ergebnis angezeigt.

Ich habe den Vorgang auch mehrmals getestet, aber die GIF-Datei wurde nicht gescannt, trotz dass keine Fehlermeldung erschien. Das Ergebnis mit Free-OCR war ok, es wurde lediglich aus „%“ -> „°/o“ und die Vokale wurden nicht erkannt, dies wird aber damit zusammenhängen, dass ich als Scan-Sprache Englisch eingestellt hatte.

Insgesamt ist dieses Verfahren viel zu aufwendig, als dass man dieses ernsthaft für seinen Arbeitsablauf einsetzen wollte. Aber zumindest eine Möglichkeit, um ein geschütztes PDF-Dokument, bei dem das Ausdrucken nicht zulässig ist, mittels GIMP doch ausdrucken zu können.

Ein erstes Fazit: Der Passwortschutz erfüllt den Zweck

Um ein passwortgeschütztes PDF Dokument auszudrucken oder den Text herauszukopieren gibt es nach meiner Recherche leider keine einfache ad hoc Lösung. (Die anderenorts beschriebene Variante via Ghostscript war in meinem Fall nicht lösungsführend – die PDF blieb Kennwort geschützt) Am besten ist es natürlich, wenn man bspw. eine PDF Datei eines Kunden übersetzen oder bearbeiten will, einfach nach dem PDF Passwort zu fragen. Liegt dieses nicht vor wird es etwas aufwendiger.

Man könnte wie oben beschrieben entweder die Datei per OCR mit der Software Abbyy Finereader auszulesen, was aber glaube ich bei Passwort-geschützten Dokumenten nicht funktioniert. Oder per GIMP oder einer anderen Photosoftware in einer hohen Auflösung öffnen und dann mit einem OCR Programm verarbeiten.

Professionelle Lösungen á la PDF-Analyzer (Freeware Version – Link) oder VeryPDF (Link) bieten wohl zusätzliche Möglichkeiten (beide habe ich noch nicht getestet), aber schlussendlich erfüllen geschützte PDF-Dokumente eben ihren Zweck, es ist und bleibt schwierig, ohne Passwort an die Text-Inhalte für die weitere Verarbeitung zu gelangen.

Weitere Beiträge:

Office » Microsoft Office 2010 zum halben Preis mit PKC-Version
MS Word» Word 2010 druckt nicht – Seitenansicht bleibt leer
Drucker » Meine Tipps beim Druckerkauf auf Druckerfinder.de
Erfahrungsbericht » Briefmarken Online bestellen und Bearbeitungszeiten der Post

Verwendete Suchbegriffe:
  • geschützte pdf drucken
  • geschütztes pdf drucken
  • schreibgeschützte pdf drucken
  • gesichertes pdf drucken
  • geschütztes pdf kopieren
Stichworte: ,
Ein Kommentar zu “Geschützte PDF drucken – Text kopieren
  1. Anonymous sagt:

    Es geht wie ich finde auch einfacher: Man nimmt die interessanten Seiten aus dem PDF heraus mit PDF Split and Merge basic (freeware, läuft ohne Installation) und kann dann mit dem PDF Xchange viewer (freeware, läuft ebenfalls ohne Installation) all das markieren und kopieren (Werkzeuge, Allgemein, Schnappschuss oder Auswahl) was man möchte.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*