DocuLib

Mit DocuLib bekommen Sie Ihre Dokumente in den Griff. DocuLib verarbeitet umfangreiche Dokumentsammlungen auf Spitzenniveau. In einem vollständig automatisierten Workflow werden Dokumente strukturiert, erkannt und ausgelesen. So enthält DocuLib zum Beispiel effiziente Methoden zur Bildoptimierung, Layoutanalyse, OCR und Textanalyse. Die Entwickler der DocuLib haben es sich zur Aufgabe gemacht, Qualität und Geschwindigkeit der Dokumentanalyse zu optimieren. Damit die Dokumentverarbeitung für DocuLib-Kunden eines Tages zur schönsten Nebensache der Welt wird.

Vorteile

Softwarehersteller können DocuLib direkt in ihre eigene Lösung integrieren. Über eine Schnittstelle kann DocuLib in das Enterprise Content Management (ECM), Dokumentmanagementsystem (DMS), Workflow Management oder vergleichbare Lösungen eines Herstellers eingebettet werden. Die Vorteile für Anwender im Überblick:

  • Nur wenige Trainingsdokumente nötig
  • Spitzentechnologie dank Machine Learning
  • Robust gegenüber Scans in schlechter Qualität
  • Modularer Aufbau ermöglicht stufenweisen Einstieg
  • Kann für verschiedene Fachsprachen trainiert werden
  • Geeignet für über 2000 Schriftarten (Fraktur und Antiqua)
  • Beste Ergebnisse unabhängig von OCR dank Vorverarbeitung

Dokumente

DocuLib kommt mit einer Unsumme an Dokumenten in unterschiedlichster Qualität zurecht. Und DocuLib ist ein Allesfresser. Ob originär elektronisch (CI) oder gescannt (NCI), mit der Digitalkamera aufgenommen oder als Fax empfangen; ob strukturiert oder unstrukturiert: DocuLib verarbeitet die unterschiedlichsten Dokumentarten. So zum Beispiel Zeitungen und Zeitschriften, kaufmännische Dokumente (Rechnung, Lieferschein, Geschäftspost), Verträge, AGB, Geschäftsberichte, technische Datenblätter, Korrespondenz, Urkunden, Bewerbungsunterlagen, Behördenakten, historische Dokumente, Fragebogen, Arztrezepte, Pässe und mehr. Auch bei der Verarbeitung von Scans in schlechter Qualität liefert DocuLib gute Ergebnisse.

Workflow in 4 Steps

Step 1

Vorverarbeitung

Step 2

Strukturerkennung

Step 3

OCR

Step 4

Klassifikation

1. Vorverarbeitung

Mittels vollautomatischer Qualitätsoptimierung werden die Digitalisate für die nächsten Verarbeitungsschritte bestmöglich aufbereitet.

Qualitätsbewertung

Ziel: Feststellen der Schärfe und aussortieren von Bildern

Vorteil: Bilder mit geringer Qualität zurückweisen und Kunden um neues Bild bitten. Nur hochwertige Bilder in der Verarbeitung.

Freistellung

Ziel: Ausschneiden und separates Speichern von Objekten

Vorteil: Immer wichtiger in Zeiten mobiler Apps. Der Seitenrand wird auf dem Handyfoto eines Dokuments gefunden.

Entzerrung

Ziel: Glätten des Schriftbilds

Vorteil: Ob mit dem Handy verzerrt abfotografierte Dokumente oder am Falz gescannte Buchseiten – das Schriftbild wird entzerrt.

Rotation

Ziel: Horizontales Ausrichten schiefer Digitalisate

Vorteil: Hoch- und Querformat werden zuverlässig erkannt, aber auch um wenige Grad gedrehte Seiten und sogar Drehungen um 180 Grad.

Binarisierung

Ziel: Text und Hintergrund – schwarz auf weiß

Vorteil: Zuverlässige Konvertierung selbst in schwierigen Fällen wie bei ungleichmäßiger Belichtung. Dokumente werden für Folgeschritte vorbereitet und nebenbei Speicher-, Datentransfer- und Zeitaufwand reduziert.

Schmutzentfernung

Ziel: Entfernen von Störelementen (Riss, Falzmarke, etc.)

Vorteil: Enorm wichtig vor der OCR. So wird die fehlerfreie Erkennung in den Folgeschritten sichergestellt.

2. Strukturerkennung

Dank logischer Strukturerkennung wird die Bilddatei in relevante Bereiche (z.B. Texte, Bildunterschriften, Linien) und irrelevante Bereiche (z.B. Abbildungen, Weißflächen) aufgeteilt.

Seitensegmentierung

Ziel: Separieren einzelner Inhaltsbausteine

Vorteil: Mehrspaltiger Text? Markierungen auf dem Seitenrand? Dank der Segmentierung werden die Textinhalte und -zusammenhänge bei späteren Text Mining-Schritten korrekt erkannt.

Layoutanalyse

Ziel: Zuordnen und kombinieren einzelner Inhaltsbausteine

Vorteil: Die semantische Bedeutung einzelner Textblöcke wird erkannt, z.B. Adresse, Betreff, Anrede, Haupttext, Fußzeile, Überschrift, Unterüberschrift, etc. Eine enorme Erleichterung für die nächsten Schritte.

Tabellenerkennung

Ziel: Erkennen tabellarischer Inhaltsbausteine

Vorteil: Daten lassen sich kaum komprimierter darstellen als in einer Tabelle. Dank der Tabellenerkennung können tabellarische Daten zuverlässig gefunden und extrahiert werden.

3. Optical Character Recognition

Zur inhaltlichen Erschließung werden Bilder in Texte umgewandelt. Es gibt außerdem Schnittstellen zu anderen OCR-Engines wie Tesseract, Abbyy FineReader und OmniPage.

Fontklassifikation

Ziel: Erkennen der Schriftart (Antiqua vs. Fraktur)

Vorteil: Auch historische Dokumente mit gemischten Fonts können automatisiert erschlossen werden.

DeepER OCR (optional)

Ziel: Umwandeln von Graustufenbildpunkten in Textinfo

Vorteil: Eine der besten verfügbaren OCR Engines. Und dank modernster Deep Learning-Technologie individuell trainierbar auf spezifische Dokumente.

Video OCR

Ziel: Umwandeln von Videomaterial in Textinfo

Vorteil: Extraktion von Texten aus Videos. Noch nie waren Videos einfacher durchsuchbar.

4. Klassifikation

Dokumente werden mithilfe von probabilistischen Modellen den entsprechenden Dokumentklassen zugeordnet. Dokumentklassen werden individuell festgelegt und Modelle für die Klassen trainiert.

Extraktion von Merkmalen

Ziel: Nutzen der Merkmale zum Training des Modells

Vorteil: Eingangspost sortieren? Formulare erkennen? Unternehmensbilanzen klassifizieren? Mit der Merkmalsextraktion können die passenden Features für den Anwendungsfall generiert werden.

Ermittlung Wahrscheinlichkeiten

Ziel: Ermitteln der Dokumentart

Vorteil: Nie wieder Dokumente per Hand sortieren. Dank der Klassifikation können Dokumente direkt an den richtigen Ansprechpartner weitergeleitet oder richtig abgelegt werden.

Individuelle Entwicklungswünsche

Sie haben spezifische Herausforderungen, wünschen sich ein weiteres Modul oder Feature?
Sprechen Sie uns darauf an.