Texterkennung verbessern durch bedarfsgerechtes Tuning

1. Kontrast erhöhen, Dokumente heller oder dunkler machen

In vielen Branchen sind auch heute noch Belege mit x Durchschlägen notwendig und an der Tagesordnung. Deswegen werden die oft totgesagten Nadeldrucker vermutlich niemals aussterben, aber das ist ein anderes Thema. Fakt ist, dass auch bei guten Nadeldruckern der dritte, vierte oder fünfte Durchschlag so schwach ist, dass selbst die leistungsfähige agorum core OCR-Engine kaum noch etwas erkennt. Hier genügt es oft, im OCR-Tuner den Kontrast zu erhöhen und/oder das Dokument dunkler zu machen, so dass der Druck besser lesbar wird.

Bildschirmfoto des OCR-Tuners zeigt die Einstellungen für die Texterkennung eines Fahrzeugscheins, inklusive AdaptiveBinarization und Despeckle-Funktion.

2. Schmutz und Flecken entfernen mit der Despeckle-Funktion

Dokumente, die aus der Produktion oder der Werkstatt kommen, sind gerne mal mit Fingerabdrücken, Ölflecken oder ähnlichen Störern verziert. Weil der Scanner nicht unterscheiden kann, was zum Dokument gehört und was nicht, werden diese Flecken mitgescannt - sehr zur Verwirrung der OCR-Engine. Die ist ja auch nicht schlauer als der Scanner und bemüht sich oft vergebens, die wesentlichen Daten zu erkennen.

Ein anderes Beispiel für Flecken, die die OCR irritieren, sind Kopierschutz-Artefakte, die häufig auf offiziellen Dokumenten wie Ausweisen, Pässen oder Fahrzeugscheinen zu finden sind. Bei dem hier eingescannten Fahrzeugschein muss sich selbst das menschliche Auge sehr anstrengen, um die wesentlichen Inhalte von den darüberliegenden Kopierschutz-Artefakten zu trennen.

Bildschirmfoto zeigt das agorum core OCR-Tuner-Tool, das für die Texterkennung eines Fahrzeugscheins optimiert wird.

Das Ergebnis sieht dann so aus:

  

3. Horizontale und vertikale Linien entfernen

Auf Karopapier eingescannte Dokumente oder Tabellen mit sehr engen Zellen eignen sich ebenfalls perfekt dazu, die OCR-Engine zur Verzweiflung zu bringen. Sie versucht nämlich, sämtliche vertikalen und horizontalen Linien als Zeichen zu interpretieren und liefert somit ein falsches Ergebnis bei der Texterkennung. Deswegen gibt es im OCR-Tuner die Möglichkeit, horizontale und vertikale Linien entfernen zu lassen. Je nach Dicke der Linien lässt sich die Empfindlichkeit der Entfernungsfunktion (Minimal- und Maximalwert) einstellen.

4. Weitere Tuning-Möglichkeiten

Wie Sie auf dem Screenshot im Menü links sehen können, gibt es noch weitere Möglichkeiten, ein Dokument zu tunen. Weil die drei oben beschriebenen Varianten zur Verbesserung der Texterkennung aber sicherlich am häufigsten vorkommen, möchten wir auf die weiteren Funktionen nicht mehr im Einzelnen eingehen. Nur eine Anmerkung noch: Die Schräglagenkorrektur (Deskew) ist im OCR-Tuner zwar möglich, aber normalerweise nicht mehr nötig, denn sie wird in der Praxis bereits von der agorum core OCR-Engine selbst automatisch durchgeführt.

Tuning-Parameter speichern und eigenen Scaneingangsordner definieren

Mit gezieltem Tuning lässt sich aber nicht nur die Texterkennung verbessern. Die wahre Stärke des OCR-Tuners liegt darin, dass Sie das Tuning nur einmal machen und anschließend auf alle anderen Dokumente dieses Typs anwenden können. Wenn Sie beispielsweise in der Fuhrparkverwaltung oder in einer Autovermietung arbeiten und täglich Fahrzeugscheine einscannen, brauchen Sie den Dokumententyp "Fahrzeugschein" nur beim ersten Mal zu tunen. Dann speichern Sie alle Parameter und definieren damit einen eigenen Scaneingangsordner, in den Sie in Zukunft alle Fahrzeugscheine scannen. Die agorum core OCR-Engine wendet die Parameter automatisch bei jedem Dokument an, das in diesen Eingangsordner gescannt wird. Sie erkennt somit die Fahrzeugscheine wieder automatisch und kann sie erfassen und für die Volltextsuche verschlagworten.

Fazit

Mit dem eingebauten OCR-Tuner setzen Sie Ihrer agorum core OCR-Engine quasi die Lesebrille auf. Sie können schnell, einfach und nachhaltig die Texterkennung verbessern, sodass auch schwierig auszulesende Dokumente automatisch richtig ausgelesen werden können.

Lernen Sie den OCR-Tuner kennen

Wenn Sie sehen möchten, wie der OCR-Tuner in der Praxis funktioniert, dann lassen Sie sich diese Funktion doch einfach von einem unserer Experten zeigen. Vereinbaren Sie einen Termin für Ihre persönliche Online-Demo. Wir freuen uns, von Ihnen zu hören.

Bitmi