Zum Hauptinhalt gehen

Glossar

A     B     C     D         F     G     H     I     J     K     L     M     N     O     P     Q     R     S     T     U     V     W     X     Y     Z  

OCR ist die Abkürzung für Optical Character Recognition, auf Deutsch „Optische Buchstabenerkennung“: Software zur Texterkennung.

OCR spielt eine wichtige Rolle beim Digitalisieren von Arbeitsprozessen. Für digitale Workflows müssen alle Dokumente, die auf Papier vorliegen, eingescannt werden. Der Scanner allerdings speichert jedes Dokument als Bilddatei. Damit sich der Text einer eingescannten Seite mit Programmen wie Word bearbeiten lässt, müssen die Bilder wieder in Text umgewandelt werden. Das gewährleistet OCR.

Die Software zerlegt die Seite in ihre Einzelteile. Per Layoutanalyse stellt OCR fest, an welchen Stellen sich auf einer Seite Text befindet und wo Elemente wie Bilder oder Grafiken stehen. Am Ende der Layoutanalyse erstellt die Software aus dem Dokument eine Sammlung einzelner Zeichen. Im nächsten Schritt müssen die Zeichen korrekt identifiziert werden, bevor aus den Zeichen der Text rekonstruiert und als Textdatei gespeichert wird.

Je unmissverständlicher die Buchstaben, desto fehlerfreier arbeitet die OCR-Software. Bei verschnörkelten Schriften und endgültig bei Handschriften stößt sie an Grenzen. Hier setzen Handprint Character Recognition (HCR) und Intelligent Character Recognition (ICR) an.