Best Practice agorum core

OCR-Engine im DMS/ECM agorum core

OCR-Engine im DMS/ECM agorum core

Die OCR-Engine ist wie das Herzstück eines DMS/ECM. OCR steht für Optical Character Recognition und ist für die automatisierte Texterkennung zuständig. In Kombination mit der agorum core docform-Familie lassen sich Rechnungen positionsgenau auslesen. Wie die ausgereifte Technik funktioniert, beschreiben wir in diesem Blogbeitrag. 

OCR-Engine im DMS/ECM agorum core

Um Dokumente in einem DMS/ECM zu verarbeiten, wird eine OCR-Software für die Texterkennung benötigt. agorum core ist mit Readiris ausgestattet und in der Praxis bestens erprobt. Die zu verarbeitenden Dokumente können in drei Kategorien eingeteilt werden:

1. Nicht durchsuchbare Dokumente

Das sind Dokumente, die über optische Eingabegeräte, wie zum Beispiel Scanner, Digitalkameras, Fax oder Apps ins System gelangen. Daten aus diesen Quellen müssen den OCR durchlaufen. Dieser erfasst die Informationen als Bilder und wandelt diese in lesbaren Text um, verarbeitet sie weiter und übergibt sie im Falle einer Rechnung an docform. Danach startet der Workflow.

2. Durchsuchbare Dokumente aus Drittsystemen

Hier sprechen wir von Dokumenten, die digital generiert werden, wie zum Beispiel Rechnungen, Word-Dokumente, Berichte, PDF-Dateien etc. Diese (Text)-Inhalte sind im Dokument hinterlegt und dadurch im DMS auslesbar und müssen nicht mehr durch den OCR. 

3. Durchsuchbare Dokumente, die bereits Metainformationen enthalten, wie zum Beispiel ZUGFeRD und XRechnungen

Seit November 2020 gilt für die wirtschaftliche Zusammenarbeit mit Bund, Ländern und Kommunen das E-Rechnungsgesetz. Ziel des Gesetzes ist es, Rechnungen elektronisch zu vereinheitlichen und langfristig Papierrechnungen abzuschaffen. Entstanden sind hybride elektronische Rechnungsformate mit den Namen ZUGFeRD und XRechnungen

  • Die ZUGFeRD-Rechnung besteht aus zwei Komponenten: einer PDF-Datei, die die Rechnungen für Menschen lesbar macht, und einer XML-Datei, die Metadaten enthält, die nur mit entsprechenden Programmen lesbar sind. 
  • Die XRechnung hingegen ist ein vollständig XML-basiertes Rechnungsformat und kann nicht vom Nutzer gelesen werden. 

Rechnungen in diesen beiden Formaten müssen nicht mehr den OCR durchlaufen und auch nicht trainiert werden. Das DMS/ECM agorum core wird so konfiguriert, dass ein Mapping mit dem Rechnungsdokument erfolgt und die Daten synchronisiert werden.  

WICHTIG

Um die Ressourcen des OCRs zu schonen – das ist besonders bei hohen Datenmengen wichtig – bietet die docform-Familie Möglichkeiten, um die Auslastung des OCRs zu steuern. Dadurch werden wie oben beschrieben Dokumente, die bereits Textinformationen besitzen, nicht mehr durch den OCR erfasst.

Die agorum core docform-Familie

Die docform-Familie von agorum core ist für den gesamten Bereich der automatisierten Dokumentenverwaltung zuständig. Die Familie ist modular aufgebaut, und Unternehmen können wählen, wie hoch der Automatisierungsgrad sein soll – vom einfachen Auslesen der Rechnungen bis hin zu vollautomatisierten Prozessen. Das positionsgenaue Auslesen mit Abgleich von Lieferscheinen haben wir ausführlich in diesem Blogbeitrag beschrieben.

OCR Engine Rechnung auslesen agorum
Mit der agorum core docform-Familie können Rechnungen positionsgenau ausgelesen werden.

"Was uns bei der Entwicklung wichtig war ..."

Entwickler Jan Jäger agorum Software

Durch die OCR-Einstellungen kann der Kunde entscheiden, ob er z. B. Barcodes auslesen oder Dokumente, die um 90 Grad gedreht sind, korrigiert haben möchte etc. Wenn das alles deaktiviert ist, geht die Verarbeitung deutlich schneller.

Jan Joshua Jäger | Entwicklung

OCR-Engine: Häufig gestellte Fragen

1.) Wird ein bestimmter Scanner benötigt?

Im Grunde kann jeder Scanner Dokumente digitalisieren und ins DMS/ECM speichern. Das sind die gängigen Varianten: 

  1. Scan to file (Schnittstelle CIFS/SMB, WebDAV oder FTP)
  2. Scan to mail (als E-Mail Anhang)
  3. Scanapplikation und manuelles “Speichern unter”

Wir empfehlen Ihnen folgende Scannereinstellungen vorzunehmen, da diese unserer Erfahrung nach die besten Resultate bringen:

  • Graustufen oder Farbe
  • 300 DPI
  • geringe/keine Komprimierung

Um optimale Ergebnisse bei Sonderdokumenten wie farbige oder mit einem Nadeldrucker gedruckte Durchschlagsdokumente zu erhalten, müssen ggf. die Scannereinstellungen optimiert werden. Lässt der Scanner keine Einstellungen zu, können Sie mit dem OCR-Tuner die optimalen Parameter herausfinden.

2.) Was passiert mit Dokumenten, die nicht zugeordnet werden können?

Kann ein Dokument nicht zugeordnet werden, kann es zwei Ursachen geben: 

1. Der Ablageort ist nicht bekannt.
2. Die Qualität des Dokumentes ist nicht ausreichend. 

In beiden Fällen werden die Dokumente im Audit gespeichert. Die fehlenden Informationen können dann von den Nutzern manuell erfasst werden. Diesen Prozess haben wir ausführlich in diesem Webinar beschrieben.

Bonbon für alle agorum core-Kunden: ab agorum core-Version 9.1.1 gibt es im information center einen Standardfilter, der die Nutzer informiert, wenn Dokumente im Audit sind. 

3.) Können Dokumente, die eingeschränkt lesbar sind, ausgelesen werden?

Lieferscheine oder auch Belege sind prädestiniert dafür, verschmutzte Oberflächen aufzuweisen. Wasser, Fett oder mechanische Beanspruchung schränken die Lesbarkeit ein. Der OCR versucht, so viele Informationen wie möglich auszulesen. Wenn nicht alle Positionsdaten ausgelesen werden können, landen die Dokumente im Audit. 

Dokument mit Wasserflecken

Der OCR konnte nicht alle Daten auslesen und folglich das Dokument nicht ablegen. Im Bild sehen Sie rechts oben die Meldung des Systems und nachfolgend, welche Informationen manuell erfasst werden müssen.

Dokument mit handschriftlichen Notizen

Auch hier konnte der OCR nicht alle Informationen auslesen und das Dokument folglich nicht ablegen. Die fehlenden Werte werden in der rechten Spalte angezeigt und müssen manuell erfasst werden.

4.) Können Positionsdaten auch falsch ausgelesen werden?

Im Prozess gibt es ein Kontrollzentrum, das Daten verifizieren kann. Es gleicht beispielsweise Daten mit externen Datenquellen wie einem ERP oder CSV-Dateien ab. Hierzu folgende Anwendungsbeispiele:

  • Gesamtsummen rechnerisch prüfen lassen
  • Verifizierung bestimmter Daten eines Dokuments mit DMS-Daten
  • In agorum core docform erfasste Dokumente mit im ERP hinterlegten Bestellungen abgleichen
OCR-Engine DMS agorum core verify
In Zusammenarbeit mit dem Modul agorum core docform können Rechnungen mit externen Datenquellen abgeglichen werden.

5.) Kann der OCR Handschrift auslesen?

Nein. Jeder Mensch hat seine eigene Handschrift, es gibt viele verschiedene Schreibgeräte, viele Sprachen mit unterschiedlichen Buchstaben und Zeichen. In klassischen Einsatzbereichen eines DMS/ECM hat die Handschrifterkennung noch keinen Einzug gehalten.

Darf es ein bisschen mehr Best Practice sein?

Allen, die mehr Best Practice Beispiele rund um agorum core lesen möchten, finden diese unter der Rubrik Best Practice.

Sie sind herzlich eingeladen!

Im Rahmen einer Online-Demo stellen wir Ihnen das DMS/ECM agorum core ausführlich vor. Ihre Fragen beantworten unsere Experten live und in Farbe. Sprechen Sie vorab mit unseren Kundenberatern und schildern Sie ihnen mehr über Ihr Vorhaben. Wir freuen uns über Ihre Anfrage. Hier.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Newsletter abonnieren

Abonnieren Sie den Newsletter und erhalten Sie wöchentliche Updates über weitere spannende Themen.