„Die Zukunft gehört dem Document Parsing – dem automatisierten Extrahieren von Text aus beispielsweise Dokumenten, Verträgen, Führerscheinen oder Pässen.“
Unter dem Druck, schnell von Papier auf digitale Medien umzusteigen, haben sich die Unternehmen darin selbst übertroffen, Papier einzuscannen und als PDF-Dokumente abzulegen. Der Nachteil ist, dass nun im Wesentlichen unstrukturierte Daten vorliegen. Was Unternehmen aber zum Rationalisieren ihrer Prozesse benötigen, sind strukturierte Daten.
Von unstrukturierten zu strukturierten Dokumenten zu gelangen ist ein zeitaufwendiges Vorhaben, das viele Betriebe beschäftigt. Es gibt jede Menge Produkte und Dienstleistungen rund um optische Zeichenerkennung (OCR) und Text Mining, allerdings keinen dominierenden Anbieter. Zirka 80 bis 90 Prozent der heute vorhandenen Daten liegen unstrukturiert vor, das Volumen wird schon bald in die Hunderte von Zettabytes ...