Home » Software & Computer » OCR PDF Software Open Source – Freeware

OCR PDF Software Open Source – Freeware

Zuletzt aktualisiert: 13. Dezember 2022
4 Kommentare
Software & Computer

Programme zur Texterkennung sparen Zeit und Arbeit. Hat man beispielsweise ein Fax, einen Zeitungsauszug oder anderes Textmaterial in physischer Form vorliegen, das man am PC weiterverarbeiten möchte – steht aber vor dem Problem, dass man dieses erst digitalisieren / abtippen müsste, um das Ganze weiterzuverarbeiten. Dann hilft die sogenannte OCR Technik (OCR = Optical Character Recognition » Optische Zeichenerkennung).

In diesem Beitrag geht es um kostenlose OCR Lösungen und der Frage, ob diese gegenüber kommerziellen Lösungen in der Praxis überhaupt bestehen können?

Der Anwendungsfall: PDF in Text
Texterkennung mit Microsoft OneDrive
OCR mit Google Docs
Online OCR Scanner
Tesseract-OCR & Co Engines
Kostenpflichtige Lösungen: Abbyy Finereader
Fazit zu OCR Lösungen

##Update 2022: Texterkennung mit OneDrive & Co ##

Der Anwendungsfall: PDF in Text

Ich war der Meinung, dass es mittlerweile brauchbare Open Source Lösungen gibt, um beispielsweise eingescannte PDF Dokumente mittels OCR in Text umzuwandeln (» Texterkennung). Nach einer Recherche (2014) waren aber nicht wirklich optimale Lösungen zu finden, mit denen man PDF (mit eingebetteten Bilder, kein Text!) in DOC Dateien umzuwandeln kann, dennoch hier das Ergebnis meiner Recherche im Überblick: aktuelle kostenlose OCR Software bzw. Online-Tools mit Potential:

Texterkennung mit Microsoft OneDrive

Wer Microsoft Office nutzt, der kennt sicherlich OneDrive:

Microsoft OneDrive ist ein von Microsoft angebotener Cloud-Speicher- und Dateisynchronisierungsdienst. Er ermöglicht es Benutzern, Dateien und persönliche Daten in der Cloud zu speichern, Dateien freizugeben und von jedem Gerät mit einer Internetverbindung darauf zuzugreifen. OneDrive lässt sich in andere Microsoft-Dienste wie Office 365 integrieren und bietet zusätzliche Funktionen wie Dateizusammenarbeit und automatische Datensicherung. Es ist anderen Cloud-Speicherdiensten wie Google Drive und Dropbox ähnlich.

Der Clou dabei ist, dass beim Upload von Fotos diese direkt in eine PDF umgewandelt werden und durchsuchbar gemacht werden.

Ich nutze diese Funktion zum Speichern von Versicherungsdokumenten (KfZ und sonstigen Versicherungen), für die Gehaltsabrechnung und sonstige Dokumente, die ich früher abgeheftet habe.

Damit habe ich alle wichtigen Dokumente digitalisiert und kann diese sogar durchsuchen.

Genau für diesen Zweck ist OneDrive optimal, ohne zusätzliche Tools verwenden zu müssen

(ältere Tools)

OCR mit Google Docs

Google bietet zur Zeit nur eine Art Testvariante seiner Texterkennung als SampleCode an » OCR – Texterkennung mit Google (Nachtrag: unter http://googlecodesamples.com/docs/php/ocr.php nicht mehr erreichbar).

Sie besitzt leider einen großen Nachteil im Bezug auf PDF to TXT/DOC – es lassen sich nur Bilddateien, sprich jpg, gif und png umwandeln. Wenn man nicht gerade Acrobat Professional zur Hand hat, wird es also erst Mal schwierig eine mehrseitige PDF Datei in eine mehrseitige JPG Datei umzuwandeln. Hierfür gibt es sicherlich auch eine kostenlose Lösung, aber wenn man wie ich gerade beim Schritt PDF>TXT war und plötzlich vor PDF>JPG steht kann man sich schon schnell verlieren.

Ok, zurück zum OCR. Das Ergebnis ist ernüchternd, es wird lediglich Fließtext ausgegeben, die Formatierung wird komplett ignoriert. Dafür, dass Google täglich unzählige Bücher scannt und digitalisiert, schon ein wenig enttäuschend, aber evt. gibt es ja die Google OCR Engine irgendwo versteckt, irgendwann. Na ja, Failed.

Online OCR Scanner

Hier habe ich zwei Seiten finden können. Zum einen free-ocr.com und newocr.com

Mit beiden lassen sich verschiedene Bildformate in Text umwandeln. Das Problem bei beiden war bei meinem kurzen Test, dass nur einzelne Seiten gescannt werden. Free OCR com, wie auch NewOCR besticht weiterhin durch seine Überladung mit Adsense Werbung. (Adsense ist ok, aber bitte im Rahmen) Insgesamt also auch eher enttäuschend in der aktuellen Verison – Failed.

Tesseract-OCR & Co Engines

Tesseract OCR Engine bei Google Code — Tesseract OCR Engine

Tesseract läuft unter Google Code. Als Laie und wenn man einfach nur den Text aus einer PDF extrahieren möchte kommt hier nicht weit, ohne sich vorher intensiv einzulesen > Tesseract. Ähnlich sieht es bei OCRopus oder GOCR. für mal schnell ‚was umwandeln‘ Failed.

Kostenpflichtige Lösungen: Abbyy Finereader

Abbyy is King, würde ich spontan sagen. Ich habe mich zwar noch nicht aller Breite mit allen OCR Lösungen auf dem Markt befasst, aber ich kenne noch die gute alte 8er oder auch 9er Version von Abbyy Finereader und war damit immer hochzufrieden.

Dass PDF Dokumente, die vorher mal eine DOC waren, sich nicht 1:1 wieder zurück wandeln lassen ist klar, aber die Ergebnisse für Bilddateien oder bspw. eingescannte Fax-Dokumente sind recht gut bis sehr gut, je nach Auflösung der Vorlage.

Wenn man also häufig Dokumente umwandeln muss, sollte man die 50 Euro für ABBYY FineReader 9.0 Professional investieren.

Die 10er Version bietet sicherlich noch mehr Vorteile (selbst noch nicht getestet), aber vom Preis her für die nächste Version ca. 120 Euro auszugeben ist nicht zwingend notwendig, zumindest aus meiner Erfahrung ist der FineReader 9 super, wenn es wirklich hauptsächlich um PDF / JPG / Fax-Dokumente in Text / Doc geht.

Screenshot Abbyy Fine Reader Benutzeroberfläche

Natürlich lasse ich mich gern von weiteren Lösungen überzeugen, dies sind meine aktuellen Erfahrungen zu OCR Software, ohne Anspruch auf Vollständigkeit – ich will ja nur PDF to DOC.

Mehr zur Texterkennung mit Abbyy Finereader

Fazit zu OCR Lösungen

Zurzeit gibt es nach meiner Recherche, sowie aufgrund meiner eigenen Erfahrungen im Bereich OCR, bislang keine optimale kostenlose Open-Source Lösung, um PDF-Dateien oder Bilddateien 1:1 mitsamt Layout und Formatierung in Text, in eine .doc Datei umzuwandeln.

Nur die kostenpflichtige Lösung von Abbyy hinterlässt einen sehr guten Eindruck, weil das Ergebnis weitestgehend einfach dem entspricht, was ich von einer Texterkennung / PDF in DOC Umwandlung erwarte » ein formatiertes Textdokument, dass dem Original Bilddokument möglichst nahe kommt.

Wer eine OCR Lösung so wie ich für berufliche Zwecke sucht, der sollte auf jeden Fall die Testversion des ABBYY Finereaders mal probieren – das Ergebnis ist einfach überzeugend.

» Abbyy Finereader Preischeck bei Amazon

Wenn jemand eine ‚optimale‘ und dazu kostenfreie Lösung kennt, dann her damit! In diesem Sinne.

Weiterführender Beitrag zu OCR-Software / Technik-Themen:

PDFs » Geschützte PDF drucken – Text kopieren
Drucker » Druckerfinder – Tipps zum Druckerkauf

Meta: Der Beitrag "OCR PDF Software Open Source – Freeware" erschien zuerst am 9. April 2010

4 Kommentare

Antwort
Anonymous 9. März 2011 um 10:09

Texterkennung aus Bildern
JOCR 1.0.0.0 (www.everrex.com) soll angeblich diese Funktionen bieten, benötigt aber das MS-Office Paket 2003 (2007), genauer gesagt Dokument Imaging (Office Tools).
Produziert aber nur Fehlermeldungen und funktioniert nicht.
Man braucht das tool aber nicht, wenn man Dokument Imaging schon hat / haben muss.
Screenshot erstellen und als .tiff mit 300dpi speichern.
(z.B. mit IrfanView, besser mit gimp, gimp kann mittels ghostscript auch pdf-Seiten (auch geschützte) öffnen)
Das .tiff in Dokument Imaging öffnen und OCR-Erkennung durchführen, danach an Word senden – fertig – funzt super!
In Dokument Imaging unter Optionen alle Haken setzen und die Systemsprache auswählen, ebenso unter Indexdienst (ein Unterpunkt von Optionen).
Antwort
Anonymous 12. März 2011 um 22:05

Es gibt das freie Kommandozeilentool GOCR (auch JOCR). Dies benötigt zwar ein Auseinandersetzen mit den Aufrufoptionen auf Kommandozeilenebene, liefert aber bei textlastigen PDFs (bzw. Scans) durchaus brauchbare Ergebnisse, die man bei Bedarf noch durch die Rechtschreibprüfung des Textverarbeitungsprogramms jagen kann.

Also: Es gibt durchaus eine frei verfügbare OCR, die auch brauchbar ist, obgleich sie nicht mit den Ergebnissen mancher kommerzieller Systeme mithalten kann.
Antwort
SOMEONE 11. Dezember 2011 um 10:04

am besten ist pdf transformer für alle von pdf nach standart xyz transforms.
zum scannen und gleichz pdf ocr -> vue scan – praktisch fehlerfrei
Antwort
Frank 24. Februar 2012 um 22:33

Also ich bin voll beim Abbyy Fine Reader – gerade für den Einsatz im Büro kenne ich keine bessere Lösung – vor allem für PDF – einfach mit einem rechten Mausklick auf umwandeln klicken und schon hat man ein Word Dokument. Habe schon so viel probiert, aber das ist die einzige vernünftige Lösung – und wer’s geschäftlich nutzt, der muss halt Geld in die Hand nehmen – zahlt sich aus für OCR…