Definition

OCR (Optical Character Recognition)

Optische Zeichenerkennung oder kurz OCR ist der Einsatz von Technologie zur Erkennung gedruckter oder handgeschriebener Textzeichen innerhalb von digitalisierten Dokumenten wie beispielsweise einem eingescannten Papierdokument. Die grundlegende Vorgehensweise von OCR besteht darin, den Text eines Dokumentes zu untersuchen und die Zeichen in einen Code zu übersetzen, der für die Datenverarbeitung verwendet werden kann. Daher wird OCR (Optical Character Recoginition) manchmal auch als Texterkennung bezeichnet.

OCR-Lösungen bestehen in der Regel aus einer Kombination aus Hard- und Software, die zur Umwandlung von physischen Dokumenten in maschinenlesbaren Text verwendet werden. Beispielsweise wird ein Scanner, ein Multifunktionsgerät oder eine Kameraaufnahme für das Kopieren oder das Einlesen des Dokumentes verwendet. Die Software übernimmt dann die eigentliche Verarbeitung. Dabei kommen je nach Ansatz auch Verfahren aus dem Bereich der KI (künstlichen Intelligenz) zum Einsatz, wenn es sich um fortschrittliche Methoden der Zeichenerkennung erhandelt. Wie beispielsweise bei der Erkennung von Sprachen oder Handschriften.

OCR kommt in den unterschiedlichen Bereichen zum Einsatz, beispielsweise auch bei der Digitalisierung von juristischen oder historischen Dokumenten in PDF-Dateien. Einmal verarbeitet, können Benutzer das Dokument bearbeiten, formatieren und durchsuchen. Ganz so, als wäre es in einem herkömmlichen Textverarbeitungsprogramm am Rechner erstellt worden.

Wie funktioniert OCR?

Im ersten Schritt erfolgt bei der optischen Zeichenerkennung die Digitalisierung des physischen Dokumentes, beispielweise durch einen Scanner oder ein anderes Gerät. Das eingescannte Dokument, beziehungsweise die Bitmap, wird auf dunkle und helle Bereiche analysiert. Üblicherweise werden die dunklen Bereiche als zu erkennende Zeichen und die hellen Bereiche als Hintergrund identifiziert.

Die dunklen Bereiche werden daraufhin weiterverarbeitet, um alphabetische Buchstaben oder numerischer Ziffern zu finden. Die verschiedenen OCR-Lösungen unterschieden sich durchaus in der Vorgehensweise, aber häufig wird jeweils nur ein Zeichen, ein Wort oder ein Textblock auf einmal erkannt. Die Zeichen werden dann üblicherweise mit einem der folgenden Verfahren erkannt:

Musterkennung: OCR-Programme werden mit Textbeispielen in verschiedenen Schriftarten und Formaten gefüttert, die dann zum Vergleich und zur Erkennung von Zeichen im gescannten Dokument herangezogen werden.

Merkmalserkennung: OCR-Programm wenden Regeln bezüglich der Merkmale eines bestimmten Buchstabens oder eine Zahl an, um Zeichen im gescannten Dokument zu erkennen. Zu den Merkmalen können beispielsweise die Anzahl der abgewinkelten Linien, gekreuzte Linien oder Kurven in einem Zeichen zum Vergleich gehören. Beispielsweise kann der Großbuchstabe A als zwei diagonale Linien gespeichert werden, die in der Mitte mit einer horizontalen Linie verbunden werden.

Wenn es ein Zeichen identifiziert wird, wandelt das System es beispielsweise in einen ASCII-Code um, für die weitere Verarbeitung im Computer. Anwender sollten im verarbeiteten Dokument nachfolgend Fehler korrigieren, Korrektur lesen und sicherstellen, dass auch komplexe Layouts richtig verarbeitet wurden. Danach kann das Dokument zur späteren Verwendung weiter gespeichert und verarbeitet werden.

Welche Anwendungsfälle gibt es für OCR?

Die optische Zeichenerkennen kann in mannigfaltigen Anwendungsgebieten zum Einsatz kommen:

  • Das Einscannen und Verarbeiten von gedruckten Dokumenten, die dann mit Textverarbeitungsprogrammen wie Microsoft Word oder Google Docs bearbeitet werden können.
  • Die Indizierung von gedruckten Materialien für Suchmaschinen.
  • Die Automatisierung der Dateneingabe, -extraktion und -verarbeitung.
  • Die Verarbeitung von gedruckten Dokumenten, die dann für Menschen mit Beeinträchtigungen beim Sehen maschinell vorgelesen werden können.
  • Die Archivierung von gedruckten historischen Informationen, wie etwa Zeitungen, Zeitschriften oder auch Telefonbüchern in durchsuchbaren Formaten.
  • Das Aufnehmen wichtiger rechtlicher Dokumente in eine Datenbank.
  • Das automatische Erkennen von Text wie beispielsweise auf Nummernschildern über eine Kamera oder Software.
  • Das Sortieren von Briefen für die Postzustellung.
  • Das Übersetzen von bestimmten Wörtern innerhalb eines erfassten Dokuments in eine andere Sprache.
  • Die automatisierte Verarbeitung von Dokumenten wie Aufträgen, Lieferscheinen bei Geschäftsvorfällen.

Was sind die Vorteile der optischen Zeichenerkennung?

Die Hauptvorteile der OCR-Technologie sind Zeitersparnis und die automatische Verarbeitung von Dokumenten. Bei der automatischen Verarbeitung von Dokumenten oder digitalen Poststellen in Unternehmen ist die optische Zeichenerkennung nicht mehr wegzudenken. Selbst preiswerte Software zur Auftragsverarbeitung oder Online-Banking ist heute häufig in der Lage Merkmale wie eine Auftrags- oder Rechnungsnummer eindeutig zu identifizieren. Und auch Hardware wie Multifunktionsgeräte oder Scanner bringen meist ganz selbstverständliche OCR-Lösungen mit.

Der Aufwand wird minimiert und die Fehler reduziert. Es sind zudem Verarbeitungsschritte möglich, die mit physischen Dokumenten nicht durchgeführt werden können. Wie etwa das komprimierte Ablegen, das Hervorheben von Schlüsselwörtern, das Einbinden in Webseiten oder das Anhängen an eine E-Mail.

Das reine Einlesen von Dokumenten als Image ermöglicht bereits eine digitale Archivierung. OCR bietet aber die zusätzliche Funktionalität, diese Dokumente bearbeiten und durchsuchen zu können.

Diese Definition wurde zuletzt im Juni 2020 aktualisiert

Erfahren Sie mehr über IT-Berufe und Weiterbildung

ComputerWeekly.de
Close