Best Practice agorum core

Texterkennung verbessern mit dem agorum core OCR-Tuner

Texterkennung verbessern mit dem agorum core OCR-Tuner

Wer kennt das nicht? Ein Dokument ist im Papieroriginal schon schlecht lesbar und nachdem es durch die OCR-Engine gelaufen ist, sehen Sie gar nichts mehr. Wenn es sich dabei um eine Ausnahme handelt, ist es sicherlich am einfachsten, das Dokument schnell manuell zu erfassen. Geht es jedoch um einen regelmäßig im Unternehmen vorkommenden Dokumententyp, ist guter Rat oft teuer – es sei denn, Sie arbeiten mit der agorum core OCR-Engine. Die hat nämlich für solche Fälle eine eingebaute “Lesebrille”, den OCR-Tuner. Mit diesem einfach zu bedienenden Werkzeug können Sie mit wenigen Klicks Ihre automatische Texterkennung verbessern.

Texterkennung verbessern durch bedarfsgerechtes Tuning

1. Kontrast erhöhen, Dokumente heller oder dunkler machen

In vielen Branchen sind auch heute noch Belege mit x Durchschlägen notwendig und an der Tagesordnung. Deswegen werden die oft totgesagten Nadeldrucker vermutlich niemals aussterben, aber das ist ein anderes Thema. Fakt ist, dass auch bei guten Nadeldruckern der dritte, vierte oder fünfte Durchschlag so schwach ist, dass selbst die leistungsfähige agorum core OCR-Engine kaum noch etwas erkennt. Hier genügt es oft, im OCR-Tuner den Kontrast zu erhöhen und/oder das Dokument dunkler zu machen, so dass der Druck besser lesbar wird.

2. Schmutz und Flecken entfernen mit der Despeckle-Funktion

Dokumente, die aus der Produktion oder der Werkstatt kommen, sind gerne mal mit Fingerabdrücken, Ölflecken oder ähnlichen Störern verziert. Weil der Scanner nicht unterscheiden kann, was zum Dokument gehört und was nicht, werden diese Flecken mitgescannt – sehr zur Verwirrung der OCR-Engine. Die ist ja auch nicht schlauer als der Scanner und bemüht sich oft vergebens, die wesentlichen Daten zu erkennen.

Ein anderes Beispiel für Flecken, die den OCR irritieren, sind Kopierschutz-Artefakte, die häufig auf offiziellen Dokumenten wie Ausweisen, Pässen oder Fahrzeugscheinen zu finden sind. Bei dem hier eingescannten Fahrzeugschein muss sich selbst das menschliche Auge sehr anstrengen, um die wesentlichen Inhalte von den darüberliegenden Kopierschutz-Artefakten zu trennen.

Dieser eingescannte Fahrzeugschein ist ganz klar ein Fall für den agorum core OCR Tuner
Mit dem OCR-Tuner werden die Artefakte schnell und einfach entfernt. Wählen Sie die Option "Despeckle", also "Flecken entfernen" und schon wird der Inhalt des Fahrzeugscheins auch für die OCR-Engine lesbar.
Das Ergebnis sieht dann so aus:
Mit der Despeckle-Funktion des agorum® core OCR Tuners werden die Artefakte mühelos entfernt.Mit der Despeckle-Funktion des agorum core OCR Tuners werden die Artefakte mühelos entfernt.
Mit der Despeckle-Funktion des agorum core OCR-Tuners werden die Artefakte mühelos entfernt.
3. Horizontale und vertikale Linien entfernen

Auf Karopapier eingescannte Dokumente oder Tabellen mit sehr engen Zellen eignen sich ebenfalls perfekt dazu, die OCR-Engine zur Verzweiflung zu bringen. Sie versucht nämlich, sämtliche vertikalen und horizontalen Linien als Zeichen zu interpretieren und liefert somit ein falsches Ergebnis bei der Texterkennung. Deswegen gibt es im OCR-Tuner die Möglichkeit, horizontale und vertikale Linien entfernen zu lassen. Je nach Dicke der Linien lässt sich die Empfindlichkeit der Entfernungsfunktion (Minimal- und Maximalwert) einstellen.

4. Weitere Tuning-Möglichkeiten

Wie Sie auf dem Screenshot im Menü links sehen können, gibt es noch weitere Möglichkeiten, ein Dokument zu tunen. Weil die drei oben beschriebenen Varianten zum Texterkennung verbessern aber sicherlich am häufigsten vorkommen, möchten wir auf die weiteren Funktionen nicht mehr im Einzelnen eingehen. Nur eine Anmerkung noch: Die Schräglagenkorrektur (Deskew) ist im OCR-Tuner zwar möglich, aber normalerweise nicht mehr nötig, denn sie wird in der Praxis bereits von der agorum core OCR-Engine selbst automatisch durchgeführt.

Tuning-Parameter speichern und eigenen Scaneingangsordner definieren

Mit gezieltem Tuning lässt sich aber nicht nur die Texterkennung verbessern. Die wahre Stärke des OCR-Tuners liegt darin, dass Sie das Tuning nur einmal machen und anschließend auf alle anderen Dokumente dieses Typs anwenden können. Wenn Sie beispielsweise in der Fuhrparkverwaltung oder in einer Autovermietung arbeiten und täglich Fahrzeugscheine einscannen, brauchen Sie den Dokumententyp “Fahrzeugschein” nur beim ersten Mal zu tunen. Dann speichern Sie alle Parameter und definieren damit einen eigenen Scaneingangsordner, in den Sie in Zukunft alle Fahrzeugscheine scannen. Die agorum core OCR-Engine wendet die Parameter automatisch bei jedem Dokument an, das in diesen Eingangsordner gescannt wird. Sie erkennt somit die Fahrzeugscheine wieder automatisch und kann sie erfassen und für die Volltextsuche verschlagworten.

FAZIT

Mit dem eingebauten OCR-Tuner setzen Sie Ihrer agorum core OCR-Engine quasi die Lesebrille auf. Sie können schnell, einfach und nachhaltig die Texterkennung verbessern, so dass auch schwierig auszulesende Dokumente automatisch richtig ausgelesen werden können.

Lernen Sie den OCR-Tuner kennen

Wenn Sie sehen möchten, wie der OCR-Tuner in der Praxis funktioniert, dann lassen Sie sich diese Funktion doch einfach von einem unserer Experten zeigen. Vereinbaren Sie einen Termin für Ihre persönliche Online-Demo. Wir freuen uns von Ihnen zu hören.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht.

Newsletter abonnieren

Abonnieren Sie den Newsletter und erhalten Sie wöchentliche Updates über weitere spannende Themen.