Drücke „Enter”, um zum Inhalt zu springen.

Optische Zeichenerkennung – Optical character recognition (OCR) mit Tesseract

rc-admin

Texterkennung oder auch Optische Zeichenerkennung (OCR) ist ein zentrales Thema die Digitalisierung von gescannten Dokumenten und ist für die Wissensgesellschaft bzw. für den Erhalt vom Wissen sehr wichtig. Dabei werden automatisch Text und Daten aus gescannten Dokumenten und Bildern extrahiert. Somit können die Inhalte der Dokumente durchsuchbar gemacht werden. Außerdem lassen sich die Textpassagen z.B. mit Deepl übersetzen.

Für mein drittes Startup habe ich eine optische Zeichenerkennung implementiert. Die Texterkennung lässt sich auch als Batchlauf für viele Dokumente durchführen. Ich habe für die Texterkennung den Tesseract mit zusätzlichen Modulen verwendet. Tesseract ist eine freie Software und unterstützt dank Unicode-Support sehr viele Sprachen.

Ich habe den Code für eine einfache Vorgehensweise bei der Zeichenerkennung als Open Source auf GitHub veröffentlicht. Wer Interesse hat kann die Git-Repository unter https://github.com/rich-info/Net-Core-hOCR gerne klonen. Der Code liegt in der Programmiersprache C# vor und setzt auf .Net Core Basis.

Die Kommentare sind deaktiviert.