GRUNDLAGEN DER TEXT-ZU-BILD-SYSTEME
MICHAEL J. HUSSMANN (MJH): Eure Software Excire analysiert Bilder: Man steckt hochaufgelöste Bilder als Input hinein und bekommt als Output einen Text – Schlagwörter, die den Inhalt der Bilder beschreiben. Bei der Bildsynthese ist es umgekehrt: Man steckt kurze Texte hinein und erhält als Output mehr oder minder hochaufgelöste Bilder. Was sind die Bausteine, aus denen ein neuronales Netz eine unüberschaubare Vielzahl von Bildern generieren kann?
DR. THOMAS KÄSTER (TK): Solche generativen Systeme sind um einiges komplizierter als eine KI wie unsere, die Bilder analysiert. Bei der Bildsynthese treffen verschiedene Welten aufeinander. Da ist einmal die Bildkodierung, bei der man versucht, Bilder mit einem mathematischen Verfahren kompakt darzustellen. Hinzu kommt der Prozess des Textverstehens. Dabei wird ein Eingabesatz in einen mathematischen Ausdruck überführt. ...