Funktionierende Texterkennung kostenlos. Gibt's das?

OCR PDF Software Open Source – Freeware

Programme zur Texterkennung sparen Zeit und Arbeit. Hat man beispielsweise ein Fax, einen Zeitungsauszug oder anderes Textmaterial in physischer Form vorliegen, das man am PC weiterverarbeiten möchte – steht aber vor dem Problem, dass man dieses erst digitalisieren / abtippen müsste, um das Ganze weiterzuverarbeiten.

Dann hilft die sogenannte  OCR Technik weiter (OCR = Optical Character Recognition » Optische Zeichenerkennung). In diesem Beitrag geht es um kostenlose OCR Lösungen und der Frage, ob diese gegenüber kommerziellen Lösungen in der Praxis bestehen können.

Der Anwendungsfall: PDF in Text

Ich war der Meinung, dass es mittlerweile brauchbare Open Source Lösungen gibt, um beispielsweise eingescannte PDF Dokumente mittels OCR in Text umzuwandeln (» Texterkennung). Nach einer kurzen Recherche waren aber nicht wirklich optimale Lösungen für PDF (mit eingebetteten Bilder, kein Text) in DOC Dateien umzuwandeln zu finden, dennoch hier ein kurzer Überblick zu aktueller kostenloser OCR Software bzw. Online-Tools mit Potential:

1. OCR mit Google Docs

Bild Texterkennung (OCR) mit Google Docs

Screenshot Texterkennung (OCR) mit Google Docs

Google bietet zur Zeit nur eine Art Testvariante seiner Texterkennung als SampleCode an » OCR – Texterkennung mit Google (Nachtrag: unter http://googlecodesamples.com/docs/php/ocr.php nicht mehr erreichbar).

Sie besitzt leider einen großen Nachteil im Bezug auf PDF to TXT/DOC – es lassen sich nur Bilddateien, sprich jpg, gif und png umwandeln. Wenn man nicht gerade Acrobat Professional zur Hand hat, wird es also erst Mal schwierig eine mehrseitige PDF Datei in eine mehrseitige JPG Datei umzuwandeln. Hierfür gibt es sicherlich auch eine kostenlose Lösung, aber wenn man wie ich gerade beim Schritt PDF>TXT war und plötzlich vor PDF>JPG steht kann man sich schon schnell verlieren.

Ok, zurück zum OCR. Das Ergebnis ist ernüchternd, es wird lediglich Fließtext ausgegeben, die Formatierung wird komplett ignoriert. Dafür, dass Google täglich unzählige Bücher scannt und digitalisiert, schon ein wenig enttäuschend, aber evt. gibt es ja die Google OCR Engine irgendwo versteckt, irgendwann. Na ja, Failed.

2. Online OCR Scanner

Hier habe ich zwei Seiten finden können. Zum einen free-ocr.com und newocr.com

Mit beiden lassen sich verschiedene Bildformate in Text umwandeln. Das Problem bei beiden war bei meinem kurzen Test, dass nur einzelne Seiten gescannt werden. Free OCR com, wie auch NewOCR besticht weiterhin durch seine Überladung mit Adsense Werbung. (Adsense ist ok, aber bitte im Rahmen) Insgesamt also auch eher enttäuschend in der aktuellen Verison – Failed.

3.Tesseract-OCR & Co Engines

Tesseract OCR Engine bei Google Code

Tesseract OCR Engine

Tesseract läuft unter Google Code. Als Laie und wenn man einfach nur den Text aus einer PDF extrahieren möchte kommt hier nicht weit, ohne sich vorher intensiv einzulesen > Tesseract. Ähnlich sieht es bei OCRopus oder GOCR. für mal schnell ‘was umwandeln’ Failed.

4. Kostenpflichtige Lösungen: Abbyy Finereader

Abbyy is King, würde ich spontan sagen. Ich habe mich zwar noch nicht aller Breite mit allen OCR Lösungen auf dem Markt befasst, aber ich kenne noch die gute alte 8er oder auch 9er Version von Abbyy Finereader und war damit immer hochzufrieden.

Dass PDF Dokumente, die vorher mal eine DOC waren, sich nicht 1:1 wieder zurück wandeln lassen ist klar, aber die Ergebnisse für Bilddateien oder bspw. eingescannte Fax-Dokumente sind recht gut bis sehr gut, je nach Auflösung der Vorlage.

Wenn man also häufig Dokumente umwandeln muss, sollte man die 50 Euro für ABBYY FineReader 9.0 Professional investieren.

Die 10er Version bietet sicherlich noch mehr Vorteile (selbst noch nicht getestet), aber vom Preis her für die nächste Version ca. 120 Euro auszugeben ist nicht zwingend notwendig, zumindest aus meiner Erfahrung ist der FineReader 9 super, wenn es wirklich hauptsächlich um PDF / JPG / Fax-Dokumente in Text / Doc geht.

Screenshot Abbyy Fine Reader Benutzeroberfläche

Screenshot Abbyy Fine Reader Benutzeroberfläche

Natürlich lasse ich mich gern von weiteren Lösungen überzeugen, dies sind meine aktuellen Erfahrungen zu OCR Software, ohne Anspruch auf Vollständigkeit – ich will ja nur PDF to DOC.

5. Fazit

Zur Zeit gibt es nach meiner kurzen Recherche, sowie aufgrund meiner eigenen Erfahrungen im Bereich OCR-Lösungen, bislang keine optimale kostenlose Open-Source Lösung, um PDF-Dateien oder Bilddateien 1:1 mitsamt Layout und Formatierung in Text, in eine .doc Datei umzuwandeln.

Nur die kostenpflichtige Lösung von Abbyy hinterlässt einen sehr guten Eindruck, weil das Ergebnis weitestgehend einfach dem entspricht, was ich von einer Texterkennung / PDF in DOC Umwandlung erwarte » ein formatiertes Textdokument, dass dem Original Bilddokument möglichst nahe kommt.

Wer eine OCR Lösung so wie ich für berufliche Zwecke sucht, der sollte auf jeden Fall die Testversion des ABBYY Finereaders mal probieren – das Ergebnis ist einfach überzeugend.

ABBYY FineReader OCR Software

ABBYY FineReader OCR Software

Wenn jemand eine ‘optimale’ und dazu kostenfreie Lösung kennt, dann her damit! In diesem Sinne.

Weiterführender Beitrag zu OCR-Software / Technik-Themen:

PDFs » Geschützte PDF drucken – Text kopieren
Übersetzen » Übersetzer-Ressourcen – nützliche Links für Übersetzer
Übersetzen » Word-Dokument übersetzen Englisch – Deutsch
Drucker » Druckerfinder – Tipps zum Druckerkauf
Office » PDF Unterstützung in Microsoft Office 2010 (via Officeblog.at)


Screenshot Word ’10 – PDF mit Office 2010 direkt erstellen

Verwendete Suchbegriffe:
  • open source ocr
  • ocr open source
  • pdf ocr freeware
  • ocr software open source
  • opensource ocr
  • pdf ocr open source
Stichworte: , ,
4 Kommentare auf “OCR PDF Software Open Source – Freeware
  1. Anonymous sagt:

    Texterkennung aus Bildern
    JOCR 1.0.0.0 (www.everrex.com) soll angeblich diese Funktionen bieten, benötigt aber das MS-Office Paket 2003 (2007), genauer gesagt Dokument Imaging (Office Tools).
    Produziert aber nur Fehlermeldungen und funktioniert nicht.
    Man braucht das tool aber nicht, wenn man Dokument Imaging schon hat / haben muss.
    Screenshot erstellen und als .tiff mit 300dpi speichern.
    (z.B. mit IrfanView, besser mit gimp, gimp kann mittels ghostscript auch pdf-Seiten (auch geschützte) öffnen)
    Das .tiff in Dokument Imaging öffnen und OCR-Erkennung durchführen, danach an Word senden – fertig – funzt super!
    In Dokument Imaging unter Optionen alle Haken setzen und die Systemsprache auswählen, ebenso unter Indexdienst (ein Unterpunkt von Optionen).

  2. Anonymous sagt:

    Es gibt das freie Kommandozeilentool GOCR (auch JOCR). Dies benötigt zwar ein Auseinandersetzen mit den Aufrufoptionen auf Kommandozeilenebene, liefert aber bei textlastigen PDFs (bzw. Scans) durchaus brauchbare Ergebnisse, die man bei Bedarf noch durch die Rechtschreibprüfung des Textverarbeitungsprogramms jagen kann.

    Also: Es gibt durchaus eine frei verfügbare OCR, die auch brauchbar ist, obgleich sie nicht mit den Ergebnissen mancher kommerzieller Systeme mithalten kann.

  3. SOMEONE sagt:

    am besten ist pdf transformer für alle von pdf nach standart xyz transforms.
    zum scannen und gleichz pdf ocr -> vue scan – praktisch fehlerfrei

  4. Frank sagt:

    Also ich bin voll beim Abbyy Fine Reader – gerade für den Einsatz im Büro kenne ich keine bessere Lösung – vor allem für PDF – einfach mit einem rechten Mausklick auf umwandeln klicken und schon hat man ein Word Dokument. Habe schon so viel probiert, aber das ist die einzige vernünftige Lösung – und wer’s geschäftlich nutzt, der muss halt Geld in die Hand nehmen – zahlt sich aus für OCR…

PDF und OCR Open Source
PDF & OCR Open Source Lösungen