Lesezeit ca. 7 Min.

Texterkennung in der Cloud: So helfen die Hyperscaler beim Automatisieren


Logo von Computerwoche
Computerwoche - epaper ⋅ Ausgabe 4/2022 vom 21.01.2022

„Die Zukunft gehört dem Document Parsing – dem automatisierten Extrahieren von Text aus beispielsweise Dokumenten, Verträgen, Führerscheinen oder Pässen.“

Artikelbild für den Artikel "Texterkennung in der Cloud: So helfen die Hyperscaler beim Automatisieren" aus der Ausgabe 4/2022 von Computerwoche. Dieses epaper sofort kaufen oder online lesen mit der Zeitschriften-Flatrate United Kiosk NEWS.

Unter dem Druck, schnell von Papier auf digitale Medien umzusteigen, haben sich die Unternehmen darin selbst übertroffen, Papier einzuscannen und als PDF-Dokumente abzulegen. Der Nachteil ist, dass nun im Wesentlichen unstrukturierte Daten vorliegen. Was Unternehmen aber zum Rationalisieren ihrer Prozesse benötigen, sind strukturierte Daten.

Von unstrukturierten zu strukturierten Dokumenten zu gelangen ist ein zeitaufwendiges Vorhaben, das viele Betriebe beschäftigt. Es gibt jede Menge Produkte und Dienstleistungen rund um optische Zeichenerkennung (OCR) und Text Mining, allerdings keinen dominierenden Anbieter. Zirka 80 bis 90 Prozent der heute vorhandenen Daten liegen unstrukturiert vor, das Volumen wird schon bald in die Hunderte von Zettabytes ...

Weiterlesen
epaper-Einzelheft 10,99€
NEWS Jetzt gratis testen
Bereits gekauft?Anmelden & Lesen
Leseprobe: Abdruck mit freundlicher Genehmigung von Computerwoche. Alle Rechte vorbehalten.
Lesen Sie jetzt diesen Artikel und viele weitere spannende Reportagen, Interviews, Hintergrundberichte, Kommentare und mehr aus über 1000 Magazinen und Zeitungen. Mit der Zeitschriften-Flatrate NEWS von United Kiosk können Sie nicht nur in den aktuellen Ausgaben, sondern auch in Sonderheften und im umfassenden Archiv der Titel stöbern und nach Ihren Themen und Interessensgebieten suchen. Neben der großen Auswahl und dem einfachen Zugriff auf das aktuelle Wissen der Welt profitieren Sie unter anderem von diesen fünf Vorteilen:

  • Schwerpunkt auf deutschsprachige Magazine
  • Papier sparen & Umwelt schonen
  • Nur bei uns: Leselisten (wie Playlists)
  • Zertifizierte Sicherheit
  • Freundlicher Service
Erfahren Sie hier mehr über United Kiosk NEWS.

Mehr aus dieser Ausgabe

Titelbild der Ausgabe 4/2022 von Dem deutschen ITK-Markt fehlt die Dynamik. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Dem deutschen ITK-Markt fehlt die Dynamik
Titelbild der Ausgabe 4/2022 von Europol verstößt gegen Datenschutzgesetze. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Europol verstößt gegen Datenschutzgesetze
Titelbild der Ausgabe 4/2022 von Neues Kaufrecht 2022: Updatepflicht beschäftigt IT-Anbieter. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Neues Kaufrecht 2022: Updatepflicht beschäftigt IT-Anbieter
Titelbild der Ausgabe 4/2022 von Log4j-Sicherheitslücke: Was Gartner nun empfiehlt. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Log4j-Sicherheitslücke: Was Gartner nun empfiehlt
Mehr Lesetipps
Blättern im Magazin
Das bieten KI-Lösungen aus der Public Cloud
Vorheriger Artikel
Das bieten KI-Lösungen aus der Public Cloud
Windows 11: Diese Funktionen von Windows 10 sind Geschichte
Nächster Artikel
Windows 11: Diese Funktionen von Windows 10 sind Geschichte
Mehr Lesetipps

... gehen (ein Zettabyte entspricht einer Milliarde Terabyte). Die Zukunft gehört also dem „Document Parsing“ – dem automatisierten Extrahieren von Text und getaggten Werten aus beispielsweise Kredit- und Beschaffungsdokumenten, Verträgen, Führerscheinen oder Pässen.

Entsprechende Tools segmentieren jede einzelne Seite, identifizieren das Layout, nutzen OCR und ein Convolutional Neural Network für die Texterkennung und extrahieren den gewünschten Text. Auch die Umwandlung von Ziffern in numerische Werte ist möglich. Manche Dienste gehen noch weiter, indem sie ganze Entitäten auslesen und zum Beispiel aus bestimmten Textfeldern – etwa Kommentaren oder Bewertungen – auf die zugrundeliegende Stimmung schließen (Sentiment-Analyse).

In diesem Beitrag konzentrieren wir uns auf die Parsing- und Segmentierungs-Dienste für Dokumente, die von den drei großen Public- Cloud-Anbietern Amazon Web Services (AWS), Microsoft Azure und Google Cloud angeboten werden. Zu den Anwendungsfällen, die diese Services unterstützen, gehört das Extrahieren von Text und getaggten Werten aus Dokumenten.

Das können die Parsing-Tools von AWS

AWS bietet vier Dienste an: Amazon Textract implementiert die Textextraktion aus JPEG-, PNG-, TIFF- und PDF-Dateien in Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch. Für die Sprachverarbeitung ist Amazon Comprehend zuständig, und Amazon Augmented AI (A2I) unterstützt die Überprüfung von Machine-Learning-Ergebnissen durch Menschen. Die Amazon Document Understanding Solution nutzt die genannten Services, um eine End-to-End-Dokumentenanalyse zu implementieren.

Aber der Reihe nach: Mit Amazon Textract lassen sich automatisiert gedruckte oder handschriftliche Texte sowie bestimmte Daten aus Dokumenten extrahieren. Die Lösung stellt dazu drei APIs zur Verfügung:

→ eine Texterkennungs-API, die OCR-Technologie verwendet, um bestimmte Texte oder handschriftliche Passagen aus einem bereitgestellten Dokument herauszuziehen,

→ die API für Dokumentenanalyse, die für Formulare und Tabellen nutzbar ist, und

→ die Analyze Expense API, die Daten aus Rechnungen und Quittungen extrahiert. Amazon Textract wird nach dem Pay-asyou-go-Prinzip abgerechnet und unterstützt das AWS Free Tier für neue Konten.

Zu den Vorzügen von Amazon Textract gehört die relativ schnelle und genaue Datenextraktion. Die Dokumentenverarbeitung ist mit 1,50 Dollar für 1.000 Seiten nicht sehr teuer und, weil die Machine-Learning-Modelle vortrainiert sind, gibt es keinen Pflegeaufwand für Code oder Templates. Mit A2I lassen sich unterstützende Reviews durch Menschen einfach umsetzen, und auch die Skalierbarkeit der Dokumentenanalyse überzeugt. Weitere Features sind die Extraktion von Schlüssel-Wert-Paaren und Tabellen, das Erkennen von Handschriften, das Verarbeiten von Rechnungen und Quittungen, die Extraktion von Bounding-Boxes und – für die Überprüfung durch Menschen – das Bewerten der Vertrauenswürdigkeit von Ergebnissen anhand einstellbarer Schwellenwerte.

An seine Grenzen stößt Textract, wo Dateitypen und -größen nicht mehr unterstützt oder Limitie rungen in Bezug auf Seitenanzahl und Textausrichtung erreicht werden. Zudem werden PDF-Dateien nur von asynchronen Operationen unterstützt, während sowohl synchrone als auch asynchrone Operationen mit JPEG-, PNGund TIFF-Dateien zurechtkommen. Tex tract kann nicht mit einer vertikalen Textausrichtung innerhalb des Dokuments umgehen, wohl aber mit allen Dokumentendrehungen innerhalb der Ebene.

Zu den Use Cases für Textract gehören das Erstellen von Suchindizes für Dokumentenbibliotheken, die intelligente Textextraktion für die anschließende Verarbeitung natürlicher Sprache, die Extraktion von Text aus heterogenen Dokumenten für Recherche und Due Diligence sowie die Extraktion von strukturiertem Text aus Formularen zur Beschleunigung von Arbeitsabläufen (intelligente Automatisierung).

Amazon Comprehend

Amazon Comprehend ist ein Service für Natural Language Processing (NLP). Er nutzt maschinelles Lernen, um Erkenntnisse und Zusammenhänge in Texten aufzuspüren. Comprehend bietet unter anderem APIs für das Extrahieren von Keywords, Sentiment-Analyse, Entity-Erkennung, Themenmodellierung und Spracherkennung. Der Output des Textract-Dienstes wird üblicherweise zur Analyse an Comprehend weitergesandt. Comprehend benötigt Textdokumente in der UTF-8-Zeichenkodierung.

Amazon Augmented AI (A2I) implementiert auf einfache Weise den Prozess der Überprüfung von Machine-Learning(ML)-Ergebnissen durch den Menschen. Im Wesentlichen nimmt A2I dafür das Eingabedokument und den extrahierten Text und generiert eine Schnittstelle, die der menschliche Prüfer zur Korrektur der Ausgabe verwenden kann. A2I übernimmt dabei die Entscheidung, wie oft Formulare auf der Grundlage von Prozentangaben oder eines festgelegten Vertraulichkeitsniveaus stichprobenhaft von Menschen überprüft werden. Nutzer können eine AWS Lambda-Funktion schreiben, um diesen Workflow zu steuern.

Document Parsing mit Google Cloud Document AI

Document AI (DocAI) ist der Formularerkennungs-Dienst in der Google Cloud. Er umfasst allgemeine Modelle sowie branchenspezifische Modelle für Verträge, Kreditvergabe, Beschaffung, Führerscheine, Pässe und Personalausweise. Doc AI unterstützt auch Human-in-the-Loop-Workflows (HITL), um für eine höhere Genauigkeit bei Bedarf menschliche Betrachter einzubinden. DocAI ist seit April 2021 allgemein verfügbar, obwohl die meisten Dienste derzeit nur begrenzt zugänglich sind.

Hinter DocAI stecken Googles langjährig bekannte Technologien für maschinelles Sehen (einschließlich OCR) und Natural Language Processing (NLP), mit denen sich vortrainierte Modelle für Dokumente mit hohem Volumen erstellen lassen. DocAI hat bereits mehrere Milliarden Seiten aus den Bereichen Kreditvergabe, Versicherung, Behörden und anderen Branchen verarbeitet.

DocAI bietet eine einheitliche Konsole beziehungsweise Plattform für die Dokumentverarbeitung, über die Anwender auf eine Vielzahl von Parsern und Tools zugreifen können. Herstellerangaben zufolge lassen sich damit die Dokumentenverwaltung automatisieren und validieren sowie Workflows optimieren, wobei Daten fehlerfrei und konform mit den Regularien bleiben sollen.

Für einen möglichst perfekten Service bringt Google auch seine Suche ins Spiel: Mit dem Google Knowledge Graph können Anwender die geparsten Informationen validieren und anreichern, indem sie Firmennamen, Adressen, Telefonnummern und andere Details mit Entitäten im Internet abgleichen.

Die Amazon Document Understanding Solution schließlich ist eine trainierbare End-to-End-Lösung zur Dokumentenanalyse, die Textract und Amazon Augmented A2I einbezieht. Dieser Dienst kann in verschiedenen Varianten je nach Anwendungszweck bereitgestellt werden, zum Beispiel als Website für die Unternehmenssuche, als Service für die Dokumentendigitalisierung oder als Dienst, um in Massendokumenten Passagen unlesbar zu machen.

Die Parsing-Tools von Microsoft Azure

Microsofts Azure Formularerkennung (Azure Form Recognizer) wendet Advanced Machine Learning an, um Texte, Schlüssel-Wert-Paare, Tabellen und Strukturen aus Dokumenten zu extrahieren. Anhand von Beispielen können Anwender die Formularerkennung an den eigenen Dokumentenbestand anpassen – sowohl on-Premises als auch in der Cloud.

Microsoft Research beschäftigt sich seit Jahren mit KI im Dokumenten-Management. 2019 veröffentlichte das Unternehmen zwei Benchmark-Datensätze für das automatisierte Erkennen von Tabellen und Seitenobjekten.

Erst kürzlich kamen zwei weitere für die Erkennung der korrekten Lesereihenfolge und das Verstehen mehrsprachiger Formulare hinzu. Außerdem wurden drei multimodale Pre-Training-Frameworks veröffentlicht, die für Microsoft-eigene und fremde Produkte und Anwendungen in Azure KI verfügbar sind.

Derzeit sind zwei Versionen der Azure Formularerkennung verfügbar, v2.1 (GA) und v3.0 (als Preview). Form Recognizer v2.1 unterstützt die Modelle Rechnung, Quittung, Ausweisdokument und Visitenkarte. Form Recognizer v3.0 fügt ein allgemeines Dokumentenmodell hinzu, außerdem ein Layoutmodell, Form Recognizer Studio und Funktionen für Quittungen, ID-Dokumente und benutzerdefinierte Modelle.

Zu den unterstützten Dateiformaten gehören JPEG, PNG, BMP, TIFF und PDF, wobei PDFs mit eingebettetem Text besser als gescannte PDFs geeignet sind, um Fehler beim Extrahieren und Lokalisieren von Buchstaben auszuschließen. Die Formularerkennung unterstützt sieben natürliche Sprachen in Handschrift und etwa 100 gedruckte natürliche Sprachen für Layout- und benutzerdefinierte Modelle sowie Englisch für andere Modelle. Die APIs unterstützen sieben Programmiersprachen-SDKs.

Als Preview liegt zudem die Studio-Version der Azure Formularerkennung vor, ein Online- Tool zum visuellen Erforschen und Verstehen der Lösung und zum Integrieren von Funktionen des Services in eigene Anwendungen.

Die Studio-Version soll also das Erlernen des Services und seine Integration in die Formularverarbeitung einfacher machen.

Azure Form Recognizer

Mit der Schnellstartfunktion von Form Recognizer Studio können Anwender gleich mit vortrainierten Modellen in die Analyse von Dokumenten einsteigen. Ebenso können sie benutzerdefinierte Formularmodelle erstellen und in ihren Anwendungsumgebungen ausprobieren. Dafür stehen eine Python-SDK-Preview und andere Quickstart-Möglichkeiten bereit.

Darüber hinaus hilft die Studioversion der Formularerkennung Anwendern mit Layoutmodellen und Labeln.

Mit dem allgemeinen Dokumentenmodell (verfügbar in der Preview-API v3.0) kombiniert Microsoft zudem OCR-Funktionen mit Deep-Learning-Modellen für das Extrahieren von Schlüssel-Wert-Paaren und Entitäten aus Dokumenten. Der Dienst unterstützt struktu­ rierte, halbstrukturierte und unstrukturierte Daten. Microsoft plant, das allgemeine Dokumentenmodell regelmäßig an neuen Daten zu trainieren, um seine Abdeckung und Genauigkeit zu verbessern. Ziel ist es, dass Anwender für viele gängige Formulare keine eigenen Modelle mehr erstellen müssen. So hofft das Unternehmen, seinen Formularerkenner wettbewerbsfähiger gegenüber Google Document AI und Amazon Textract machen zu können.

APIs für diverse Aufgaben

Die Layout-API der Azure-Formularerkennung extrahiert Text, Tabellen, Auswahlmarkierungen und Strukturinformationen aus Dokumenten (PDF, TIFF) und Bildern (JPEG, PNG, BMP). Das Layout-Modell kombiniert dazu erweiterte OCR- Funktionen mit Deep-Learning-Modellen. Es erkennt Tabellen mit wenigen Einschränkungen und erlaubt verschmolzene Zellen, umrandete und randlose Layouts sowie ungerade Winkel.

Das API erkennt Überschriften und Auswahlmarkierungen wie etwa Kontrollkästchen und kann mehrere Farben verarbeiten. Anwender können eine Lesereihenfolge festlegen, die mehrspaltige Layouts in lateinischen Sprachen verarbeiten kann. Das Modell kann handgeschriebene Sprachen lesen, und Nutzer können angeben, welche Seiten für die Textextraktion verwendet werden sollen.

Zudem bietet Microsoft APIs für spezifische Aufgaben der Formularerkennung. Das Modell für Rechnungen etwa dient dazu, bestimmte Felder aus Rechnungen zu analysieren und auszulesen. Angaben wie Händlername, Telefonnummer, Transaktionsdatum, Steuernummer oder Transaktionssumme werden dabei erkannt. Die bearbeiteten Quittungen können verschiedene Formate und Qualitätsniveaus haben, egal ob es sich um gedruckte oder handgeschriebene Quittungen handelt.

US-Führerscheine und internationale Reisepässe lassen sich mit dem ID-Dokumentmodell bearbeiten. Die API analysiert die Identitätsdokumente und extrahiert Schlüsselinformationen wie Vorname, Nachname, Adresse und Geburtsdatum.

„Mit der Schnellstartfunktion von Microsofts Form Recognizer Studio können Anwender gleich mit vortrainierten Modellen in die Analyse von Dokumenten einsteigen.“

Auch für das Auslesen von Visitenkarten gibt es eine API, die Schlüsselinformationen wie Vor- und Nachname, Firma, E-Mail-Adresse und Telefonnummer extrahiert und eine strukturierte JSON-Datendarstellung zurückgibt.

Mit seiner Azure-Formularerkennung unterstützt Microsoft auch benutzerdefinierte Modelle, mit denen Anwender individuell Daten aus Formularen und Dokumenten auslesen können. Zudem lassen sich zusammengesetzte Modelle (Composed Models) erstellen, indem mehrere benutzerdefinierte Modelle zu einem verdichtet werden, das alle Formulartypen des Anwenders umfasst. Wird dann ein Dokument an ein zusammengesetztes Modell übermittelt, führt der Dienst eine Klassifizierung durch, um zu entscheiden, welches benutzerdefinierte Modell das zur Analyse vorgelegte Formular genau darstellt.

Schnelles Training der Modelle

Die benutzerdefinierten Modelle der Azure- Formularerkennung können mit nur sechs Exemplaren jedes Formulartyps trainiert werden, was das Vorbereiten von Modellen für gängige Formulare, wie zum Beispiel für die Steuererklärung, erheblich vereinfacht. Benutzerdefinierte Modelle können auch erkennen, ob Unterschriften vorhanden sind, allerdings können sie die Unterschriften nicht auf ihre Gültigkeit überprüfen.

(hv)

Lesen Sie auch:

→ Es gibt nicht die eine KI Hinter künstlicher Intelligenz steckt eine Vielzahl verschiedener Methoden, Verfahren und Technologien. Vieles davon ist erfahrenen ITlern seit Jahren gut bekannt. www.cowo.de/a/3545708

→ Chatbots – darauf kommt es an Vor allem in Service-Centern können Chatbots viele Anfragen automatisiert abwickeln.

Doch der Einführungsprozess sorgt in den Teams häufig für Unsicherheit – unnötigerweise. www.cowo.de/a/3675529