Möchte man eine geschützte PDF Datei ausdrucken oder den Text herauskopieren, um beispielsweise den Inhalt des Dokuments zu übersetzen, zu bearbeiten und hat Passwort nicht vorliegen, steht man vor dem Problem den Text manuell abtippen zu müssen oder man sucht nach alternativen Lösungen, wie man sich diese Arbeit ersparen kann.
Es gibt zwei Arten von passwortgeschützten PDFs: komplett geschützte PDFs, die sich nur mit einem Passwort überhaupt öffnen lassen und zum anderen, „Druck-geschützte PDFs“. Um zweitere, bei dem das Ausdrucken und Text kopieren gesperrt ist, geht es in diesem Beitrag.
Eine Möglichkeit den Text zumindest erst einmal ausdrucken zu können, lässt sich einfach mit Open Source Software lösen.
Dazu benötigt man ein Bildbearbeitungsprogramm wie GIMP oder ein anderes Freeware-Programm zum Öffnen & Bearbeiten von Bildern. GIMP ist am ehesten geeignet, weil man hiermit PDF-Dokumente öffnen kann.
Man öffnet die PDF mit Gimp und wählt eine hohe Auflösung von 300 px. Mit einer hohen Auflösung wird sichergestellt, dass die Bilddatei, die wir aus der PDF machen, gut lesbar ist.
Kleiner Nachteil ist, dass die einzelnen Seiten als Ebenen in GIMP geöffnet werden und man zwangsläufig dann die einzelnen Ebenen/Bilder einzeln ausdrucken muss. Bei PDF-Dokumenten mit wenig oder nur einer Seite aber eine gute Alternative zum händischen Abtippen.
Wenn die PDF in Gimp geöffnet ist, kann man das Dokument nun drucken oder als PDF ungeschützt speichern und weiterverarbeiten.
Texterkennung in PDF Dokumenten
Da es aber wie in meinem Beispiel ja um eine Übersetzung geht, sprich, ein Ausdruck der Datei nicht all zu viel Sinn macht, müsste man im nächsten Schritt das Dokument durch eine Texterkennungssoftware jagen.
Wie im Beitrag „OCR PDF Software Open Source – Freeware “ aber schon beschrieben, gibt es bis Dato leider keine vernünftige Open Source Lösung, um Bilddokumente oder PDF-Dateien per OCR auszulesen.
Ich habe bei der Gelegenheit die kostenlosen Lösungen von Google OCR via Docs und Free-OCR getestet. Hier Daten zum Testlauf:
Ausgangsdokument:
Eine PDF von Google – „Machen Sie Ihre Website erfolgreich.“
Bildgröße / Auflösung:
Mit GIMP geöffnet – 1833 x 1833 px – 300 px
Nur Seite 2 des Dokuments
Dateiformat:
Ursprünglich sollte es TIF werden, welches aber von Google’s OCR nicht unterstützt wird
-> GIF-Format
In Google Docs wurde gar kein Scan-Ergebnis angezeigt.
Ich habe den Vorgang auch mehrmals getestet, aber die GIF-Datei wurde nicht gescannt, trotz dass keine Fehlermeldung erschien. Das Ergebnis mit Free-OCR war ok, es wurde lediglich aus „%“ -> „°/o“ und die Vokale wurden nicht erkannt, dies wird aber damit zusammenhängen, dass ich als Scan-Sprache Englisch eingestellt hatte.
Insgesamt ist dieses Verfahren viel zu aufwendig, als dass man dieses ernsthaft für seinen Arbeitsablauf einsetzen wollte. Aber zumindest eine Möglichkeit, um ein geschütztes PDF-Dokument, bei dem das Ausdrucken nicht zulässig ist, mittels GIMP doch ausdrucken zu können.
Fazit: Der Passwortschutz erfüllt den Zweck
Um ein passwortgeschütztes PDF Dokument auszudrucken oder den Text herauszukopieren gibt es nach meiner Recherche keine einfache ad hoc Lösung. Die anderenorts beschriebene Variante via Ghostscript war in meinem Fall nicht lösungsführend – die PDF blieb Kennwort geschützt.
Am besten ist es natürlich, wenn man bspw. eine PDF Datei eines Kunden übersetzen oder bearbeiten will, einfach nach dem PDF Passwort zu fragen. Liegt dieses nicht vor wird es etwas aufwendiger.
Man könnte wie oben beschrieben entweder die Datei per OCR mit der Software Abbyy Finereader auszulesen, was aber glaube ich bei Passwort-geschützten Dokumenten nicht funktioniert. Oder per GIMP oder einer anderen Photosoftware in einer hohen Auflösung öffnen und dann mit einem OCR Programm verarbeiten.
Professionelle Lösungen á la PDF-Analyzer (Freeware Version) oder VeryPDF bieten wohl zusätzliche Möglichkeiten (beide habe ich noch nicht getestet), aber schlussendlich erfüllen geschützte PDF-Dokumente eben ihren Zweck:
Es ist und bleibt schwierig, eine geschützte PDF Datei ohne Passwort auszulesen. Es bleibt nur das mühsame Abtippen oder wenn möglich, ein Ausdruck und dann eine Texterkennung (OCR) mit einem Tool seiner Wahl.
Ähnliche Beiträge:
- Wie kann ich bei All-Inkl die PHP.ini prüfen
Wenn ein Skript nicht so läuft, wie es sollte, dann kann ein Check... - Ausfüllbare PDF mit kostenlosen Online Tool erstellen
Folgende Problemstellung: Sie haben eine PDF beispielsweise eines Fragebogens oder eines Formulars, das... - Lexoffice: Meine Erfahrungen mit der Buchhaltungssoftware für Einzelunternehmer und Freiberufler
In diesem Beiträge stelle ich meine Erfahrungen mit der Buchhaltungssoftware Lexoffice vor. Es...
Es geht wie ich finde auch einfacher: Man nimmt die interessanten Seiten aus dem PDF heraus mit PDF Split and Merge basic (freeware, läuft ohne Installation) und kann dann mit dem PDF Xchange viewer (freeware, läuft ebenfalls ohne Installation) all das markieren und kopieren (Werkzeuge, Allgemein, Schnappschuss oder Auswahl) was man möchte.