Dokumentverarbeitung wird anspruchsvoller

Die Idee des papierlosen Büros ist längst kein frommer Wunsch mehr. Unternehmen machen aus analogen Unterlagen computerlesbare Dokumente. Auch in anderen Bereichen liegen Dokumente immer öfter digital vor und wollen ausgelesen werden. So etwa bei der Archivierung von Zeitungen, der Digitalisierung von Bibliotheken und Behördenakten oder bei Arztrezepten. Die Zahl digitaler Dokumente wächst überall rasant. Mit ihr wachsen auch die Anforderungen, die an die automatische Verarbeitung der Dokumente gestellt werden. Moderne Lösungen für die Dokumentanalyse müssen Masse und Klasse beherrschen.

DocuLib kann Masse und Klasse

DocuLib bewältigt eine Fülle an Dokumenten. Und DocuLib liefert beste Ergebnisse. Buchstaben aus Pixeln zu erkennen und weiterzubearbeiten oder elektronisch durchsuchbar zu machen war noch vor zehn Jahren eine große Herausforderung. DocuLib ist heute in der Lage, Deutsch und Englisch nahezu fehlerfrei zu erkennen. Weitere europäische Sprachen können trainiert werden. Und DocuLib bringt das Ursprungslayout der Vorlage mitsamt Spalten, Fotos, Grafiken und Tabellen in ein lesbares Format. So hebt DocuLib Datenschätze ins digitale Zeitalter.

DocuLib setzt auf KI

Überall spricht man heute von künstlicher Intelligenz (KI). Zurecht! Dank KI sind Computer fähig, aus Erfahrungen zu lernen und die Welt als eine Hierarchie von Konzepten zu verstehen. Durch maschinelles Lernen entfällt zunehmend die Notwendigkeit, Wissen formal zu spezifizieren. Dadurch können Computer immer mehr Aufgaben übernehmen, die der Mensch intuitiv löst, wie etwa die Sprach- oder Gesichtserkennung. Denn gerade das fällt Computern schwer. Auch das Verstehen eines Textes aus einer Sammlung von Bildpunkten ist für den Menschen einfach, für den Computer aber eine große Herausforderung. Die Zuordnungen manuell zu programmieren ist quasi unmöglich. Erst mithilfe von KI gelingt das Erkennen von Ziffern und Buchstaben so richtig. Auch das Fraunhofer IAIS setzt auf künstliche Intelligenz in der Dokumentverarbeitung. Insbesondere künstliche neuronale Netze (KNN) und deren Optimierung mittels Deep Learning liefern exzellente Ergebnisse.

KI ist (noch) kein Allheilmittel

Regelbasierte Verfahren – beruhend auf Expertenwissen – liefern oft (noch) gleichgute oder bessere Ergebnisse. Das Fraunhofer IAIS verfügt über das Expertenwissen und die Erfahrung, um Regeln zu definieren. DocuLib basiert daher auf einem hybriden Ansatz aus regelbasierten Verfahren und KI-Lösungen etwa in der Layoutanalyse, der Tabellenstrukturerkennung oder der Klassifikation. Dabei ist man weder dem einen noch dem anderen Ansatz ideologisch verhaftet. Man orientiert sich einzig und allein am Resultat. So verbindet DocuLib das Beste aus zwei Welten, um dem Nutzer die besten Ergebnisse zu liefern.

Publikationen

Dokumentenverstehen
Konya. Adaptive Methods for Robust Document Image Understanding. Dissertation, Universität Bonn, 2013
http://hss.ulb.uni-bonn.de/2013/3169/3169.htm

Rotationskorrektur
Konya, S. Eickeler, and C. Seibert. Fast seamless skew and orientation detection in document images. In Proc. Int. Conf. Pattern Recognition, pages 1924–1928, 2010
https://www.computer.org/csdl/proceedings/icpr/2010/4109/00/4109b924-abs.html

Intelligente Binarisierung
Konya, C. Seibert, S. Eickeler, and S. Glahn. Constant-time locally optimal adaptive binarization. In Proc. Int. Conf. Document Analysis and Recognition, pages 738–742, 2009.
https://ieeexplore.ieee.org/abstract/document/5277495

Qualitätsoptimierung
Liu, I. Konya, J. Nandzik, N. Flores-Herr, S. Eickeler, and P. Ndjiki-Nya. A new quality assessment and improvement system for print media. EURASIP J. Advances in Signal Processing, 109, 2012.
https://link.springer.com/article/10.1186/1687-6180-2012-109

Strukturerkennung
Paaß and I. Konya. Machine learning for document structure recognition. In Modeling, Learning and Processing of Text Technological Data Structures, Volume 370 of Studies in Computational Intelligence. Springer, 2011.
https://link.springer.com/chapter/10.1007%2F978-3-642-22613-7_12