Lesezeit ca. 8 Min.
arrow_back

Statt malen: Bilder per Beschreibung


Logo von PC Welt
PC Welt - epaper ⋅ Ausgabe 2/2023 vom 05.01.2023

Internet

Artikelbild für den Artikel "Statt malen: Bilder per Beschreibung" aus der Ausgabe 2/2023 von PC Welt. Dieses epaper sofort kaufen oder online lesen mit der Zeitschriften-Flatrate United Kiosk NEWS.

Bildquelle: PC Welt, Ausgabe 2/2023

Haben Sie schon mal ein Bild von einem Astronauten gesehen, der im All auf einem Pferd reitet? Vermutlich nicht. Das Bild ist auf der Website von DALL-E 2.0 ( nai.com/dall-e-2/) zu finden. Das dahinter stehende Unternehmen Open AI will damit die Arbeitsweise seines Onlinetools veranschaulichen: das Erstellen eines Bildes nur mithilfe eines Beschreibungstextes. Im Falle des Astronauten lautet dieser Text: „An astronaut riding a horse in a photorealistic style“. Das Ergebnis dieser Anforderung ist beeindruckend und zeigt, was mit KI beziehungsweise mit Deep Learning mittlerweile möglich ist. Denn KI kann sehr viel mehr als nur Daten analysieren und aufgrund dieser Analyse bestimmte Vorgänge ausführen (lassen).

„Text-zu-Bild-Generatoren liefern erstaunliche Ergebnisse, bergen aber auch so manche Risiken.“

Künstliche Intelligenz: Generierend statt klassifizierend

Im Consumerbereich war bislang ...

Weiterlesen
epaper-Einzelheft 3,49€
NEWS Jetzt gratis testen
Bereits gekauft?Anmelden & Lesen
Leseprobe: Abdruck mit freundlicher Genehmigung von PC Welt. Alle Rechte vorbehalten.
Lesen Sie jetzt diesen Artikel und viele weitere spannende Reportagen, Interviews, Hintergrundberichte, Kommentare und mehr aus über 1050 Magazinen und Zeitungen. Mit der Zeitschriften-Flatrate NEWS von United Kiosk können Sie nicht nur in den aktuellen Ausgaben, sondern auch in Sonderheften und im umfassenden Archiv der Titel stöbern und nach Ihren Themen und Interessensgebieten suchen. Neben der großen Auswahl und dem einfachen Zugriff auf das aktuelle Wissen der Welt profitieren Sie unter anderem von diesen fünf Vorteilen:

  • Schwerpunkt auf deutschsprachige Magazine
  • Papier sparen & Umwelt schonen
  • Nur bei uns: Leselisten (wie Playlists)
  • Zertifizierte Sicherheit
  • Freundlicher Service
Erfahren Sie hier mehr über United Kiosk NEWS.

Mehr aus dieser Ausgabe

Titelbild der Ausgabe 2/2023 von Weltherrschaft durch KI?. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Weltherrschaft durch KI?
Titelbild der Ausgabe 2/2023 von Chrome - Add - ons laufen doch weiter. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Chrome - Add - ons laufen doch weiter
Titelbild der Ausgabe 2/2023 von Smartphones: fünf Jahre Update -Pflicht, sieben Jahre für Ersatzteile. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Smartphones: fünf Jahre Update -Pflicht, sieben Jahre für Ersatzteile
Titelbild der Ausgabe 2/2023 von Start in die digitale Energiewende?. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Start in die digitale Energiewende?
Mehr Lesetipps
Blättern im Magazin
Messenger- Inhalte auf den PC bringen
Vorheriger Artikel
Messenger- Inhalte auf den PC bringen
DxO Photolab 6 Elite
Nächster Artikel
DxO Photolab 6 Elite
Mehr Lesetipps

... insbesondere bei Smartphones, Notebooks und PCs die Rede von künstlicher Intelligenz (KI). Smartphones setzen KI dabei vor allem beim Fotografieren ein. Die entsprechenden Chips analysieren ein Motiv und wählen selbstständig zum Beispiel die optimalen Einstellungen für die Belichtung, bei Serienbildern die beste Aufnahme aus. Prozessoren mit KI-Unterstützung geben bestimmte Berechnungen an die KI ab, was zu effizienterer Auslastung und einer insgesamt höheren Leistung des Geräts führt. Diese Art von künstlicher Intelligenz wird als klassifizierend bezeichnet, da sie bestimmte Daten analysiert, einordnet und danach zur Weiterverarbeitung freigibt.

Im Gegenzug dazu erstellt die generierende KI neue Inhalte, greift dazu aber auch auf die Ergebnisse der Analyse zurück. So wandelt beispielsweise DALL-E 2.0 Wörter in Bilder um. Als Basis dient dem Programm dazu eine Datenbank aus Millionen von Bildern, die im Internet verfügbar sind und die von der KI analysiert sowie eingeordnet wurden. Dabei hat die KI den Zusammenhang zwischen den Bildern und der dazugehörigen Textbeschreibung erlernt und wendet diesen durch einen als „Diffusion“ bezeichneten Prozess zum Erstellen von neuen Bildern an: Ausgangspunkt ist hierbei ein Bild, das aus zufällig angeordneten Pixeln besteht und das sich mittels der Bilddatenbank Schritt für Schritt zu einem Bild entwickelt, das der eingegebenen Textbeschreibung entspricht.

KI-generierte Bilder: Einsatzzweck und Urheberschaft

Der Einsatzzweck von DALL-E 2.0 sowie dessen Mitstreitern wie Midjourney (www.mid ) und Stability.ai (https: //stability.ai/) ist aber natürlich nicht, Internetnutzer kurzzeitig mit lustigen Bildchen zu bespaßen. Vielmehr sollen die Ergebnisse gerade dort zum Einsatz kommen, wo es bisher wenige bis gar keine Bilder gegeben hat. So können die Ergebnisse dementsprechend auch vom persönlichen Blog bis hin zur kommerziellen Werbekampagne überall verwendet werden. Das bringt wiederum die Frage nach dem Urheber der Ergebnisse auf. Die für das Anlernen der KI verwendeten Internetbilder sind größtenteils unter Creative-Commons-Lizenzen veröffentlicht worden. Beschwerden gegen die Dienste gestalten sich darüber hinaus als schwierig, da die betroffenen Künstler wenig Chancen haben, im Endergebnis nachzuweisen, in welchem Umfang und wie genau das Originalbild verwendet wurde. Des Weiteren herrscht die übereinstimmende Meinung, dass eine KI nicht als Autor betrachtet werden kann, weshalb sie keine Rechtsverletzung begehen kann. So hat das US Copyright Office beispielsweise 2019 festgestellt, dass „Werke, die von einer Maschine oder einem rein mechanischen Prozess hergestellt werden, der zufällig oder automatisch ohne Eingabe oder kreative Intervention eines menschlichen Autors funktioniert, nicht registriert werden“ können, kein Urheberrecht für sich beanspruchen können (https://www.copy right.gov/rulings-filings/review-board/docs/ a-recent-entrance-to-paradise.pdf). Nichtsdestotrotz klagen immer wieder Künstler gegen die KI-generierten Erzeugnisse, bisher jedoch ohne Erfolg.

DALL-E 2.0: Collagen, Stilrichtungen und mehr

Der Dienst DALL-E 2.0 der US-amerikanischen Non-Profit-Organisation Open AI, zu deren Geldgebern Microsoft und Elon Musk gehören, ist die mittlerweile dritte Version des KI-gesteuerten Bildgenerators. Der Name Dall-E setzt sich dabei zusammen aus „WALL-E“, dem gleichnamigen Film von Pixar/Disney über einen sich weiterentwickelnden Müllentsorgungsroboter, und dem Namen des spanischen Künstlers Salvador Dalí. Dementsprechend war der Haupteinsatzzweck von DALL-E zu Beginn, Fotos in der Optik von verschiedenen künstlerischen Stilrichtungen zu erstellen und daraus zu lernen. Die Ursprungsversion von DALL-E wurde im Januar 2021 vorgestellt, sie war allerdings nur wenigen Beta-Nutzern vorbehalten. Mit DALL-E mini, das inzwischen in „Craiyon“ umbenannt wurde, kam kurz darauf eine frei nutzbare Version. DALL-E 2.0 ist seit April 2022 unter . com/dall-e-2/ verfügbar. Sie benötigen dafür lediglich einen kostenlosen Account, der neben Ihrer Mailadresse und Ihrem Namen auch eine gültige Mobilfunknummer voraussetzt.

Über diese bekommen Sie einen Bestätigungscode per SMS. Anschließend können Sie im ersten Monat nach Ihrer Anmeldung 50 Bilder generieren, pro Folgemonat erhalten Sie dann weitere 15 „credits“, also Freibilder. Zum Erstellen geben Sie einfach Ihre englischsprachige Beschreibung in die Zeile oben ein und klicken auf „Generate“. Neben dem Erstellen von Bildern aus dem Bestand des Dienstes dürfen Sie auch selbst Vorlagen hochladen, wobei diese bestimmte Bedin- gungen erfüllen müssten (siehe dazu Punkt „Filter sollen Missbrauch verhindern“ weiter unten auf dieser Seite). Haben Sie sich für eine Bildbeschreibung entschieden, erhalten Sie vier Ergebnisbilder, die Sie danach auch einzeln herunterladen können. Über das Kontextmenü haben Sie zudem die Möglichkeit, Variationen der einzelnen Bilder erstellen zu lassen, bei denen Ihre Beschreibung etwas weiter gefasst wird. Über „My collection“ gelangen Sie zu allen Ihren erstellten Bildern.

Midjourney: Neue künstlerische Werke statt Collagen

Bei Midjourney handelt es sich um ein unabhängiges US-amerikanisches Forschungslabor, dessen gleichnamiges Programm ebenfalls Bilder aus Beschreibungstexten generiert. Seit Juli 2022 ist der Dienst als offene Beta-Version nutzbar, User verwenden Bot-Befehle der Kommunikationsplattform Discord, um Bilder damit zu erstellen. Hierbei fällt allerdings grundsätzlich auf, dass die Ergebnisse von Midjourney im Vergleich zu denen von DALL-E tatsächlich wie echte Kunstwerke aussehen und nicht wie eine mehr oder weniger stimmige Collage aus Einzelmotiven. Nach der Anmeldung („Join the beta“) bei Discord mit Namen, Mailadresse und Geburtsdatum, loggen Sie sich mit Ihren Discord-Zugangsdaten bei Midjourney ein („Sign in“) und erteilen dem Dienst den Zugriff auf Ihr Discord-Konto. Unter https:// können Sie dann loslegen mit dem Kreieren, Ihre Werke sehen Sie unter https://www.midjourney.com/app. Die ersten 25 generierten Bilder sind kostenlos, im Anschluss daran stehen Ihnen mehrere Abomodelle zur Auswahl, die bei monatlich 10 US-Dollar für 200 Bilder beziehungsweise 200 GPU-Minuten beginnen. Und so geht’s: Öffnen Sie https://discord. gg/midjourney, und treten Sie einem beliebigen „newbies“-Channel aus der links angezeigten Auswahl bei. In die Eingabezeile tippen Sie /image und klicken als Nächstes auf die Schaltfläche „Prompt“, die daraufhin eingeblendet wird. Jetzt geben Sie die gewünschte Bildbeschreibung auf Englisch ein. Eventuell müssen Sie zuvor noch den Nutzerbedingungen zustimmen. Dann beginnt das Programm damit, vier Bilder gemäß Ihrer Beschreibung zu erstellen. Über die Schaltflächen U1 bis U4 können Sie die Bilder vergrößern, V1 bis V4 erstellt Variationen des gewählten Motivs, die in der Folge in Ihrer Galerie unter https://www.mid journey.com/app landen.

Stable Diffusion: Open Source (auch) aus München

Der dritte Anbieter für KI-generierte Bilder per Bildbeschreibung ist . Sein Deep-Learning-Modell „Stable Diffusion“ wurde in Zusammenarbeit mit der Ludwig-Maximilians-Universität München und Runway Research entwickelt, einem auf KI spezialisierten Unternehmen. Als Datengrundlage dient LAION-5B, eine Datenbank mit knapp 6 Milliarden Bild-Text-Paaren.

Im Gegensatz zu DALL-E 2.0 und Midjourney, die nur als Clouddienste zur Verfügung stehen, ist der Code von Stable Diffusion unter der Open-Source-Lizenz frei verfügbar ( fusion) und lässt sich auf den meisten Consumer-PCs ausführen. Von der Arbeitsweise her basiert Stable Diffusion wie DALL-E 2.0 auf dem bereits erwähnten Diffusion-Prozess. Eine Testplattform ist unter https: //huggingface.co/spaces/stabilityai/stablediffusion zu finden. Stable Diffusion ist dabei noch einfacher zu bedienen als DALL-E 2.0, Sie müssen sich nämlich nicht einmal registrieren. Sie tragen lediglich Ihre Bildbeschreibung auf Englisch in das Textfeld ein und klicken auf „Generate image“. In den „Advanced options“ können Sie die Anzahl der Bilder festlegen und weitere Einstellungen vornehmen. Die Ergebnisse für unser Standardbeispiel („cat in a leather jacket making an omelette”) waren zwar sehr fotorealistisch. Allerdings fehlte von den drei angegebenen Merkmalen – cat, leather jacket und omelette – immer mindestens eines. Dagegen brachte eine realistischere Beschreibung wie „beautiful beach with palm trees and a sailboat“ deutlich bessere Ergebnisse.

Sicherheitsmaßnahmen: Filter sollen Missbrauch verhindern

Natürlich laden Dienste wie DALL-E 2.0, Midjourney und Stable Diffusion dazu ein, damit Unfug anzustellen oder die Dienste anderweitig zu missbrauchen. DALL-E 2.0 hat zu diesem Zweck einen Filter eingebaut, der Nutzer daran hindert, unter anderem gewalttätige, pornografische oder politische Inhalte zu erstellen. Auch reale Personen sowie Prominente dürfen nicht als Teil der Textbeschreibung verwendet werden. Begleitend zu diesen Nutzerregeln müssen Sie sich bei DALL-E mit Ihrem Namen, Ihrer Mailadresse und Mobilfunknummer registrieren, sodass die Hürden für Missbrauch hier etwas höher sind.

Auch Midjourney hat einen „Code of Conduct”, also Nutzerregeln auf der Website. An oberster Stelle steht dabei „Don’t be a jerk“, also „Sei kein Idiot“, und der Aufruf, doch bitte keine Bilder zu generieren, die andere Nutzer verärgern, beleidigen oder verstören könnten, also etwa brutale oder pornografische Bilder. Interessant: Midjourney bietet zu den Abomodellen eine „Privatmodus“-Option für 20 US-Dollar pro Monat an. Ist diese aktiv, so werden die Anfragen mittels Direktnachrichten an den Midjourney-Bot geschickt, und die generierten Bilder lassen sich in der Nutzergalerie ausblenden, falls gewünscht. Midjourney verweist aber auch beim Privatmodus auf die erlaubte Altersfreigabe PG-13. Stable Diffusion hat dagegen keinerlei Filter oder Warnung, was problematische Bilder angeht. Auf der Seite der Testplattform ist sogar explizit zu lesen, dass die Ergebnisse „gesellschaftliche Vorurteile verstärken sowie realistische Gesichter, Pornografie und Gewalt ausgeben“ könnten. Die zugrundeliegende Datenbank LAION-5B sei jedoch von illegalem Content befreit worden. Immerhin wird der Quellcode stärker vor Missbrauch geschützt, hier müssen Nutzer sich anmelden und Kontaktinformationen hinterlassen. Darüber hinaus besagen die Nutzerbedingungen, dass das Modell nicht verwendet werden darf, um absichtlich illegale oder schädliche Inhalte zu generieren ().

Fazit: Ergebnisse hängen von der Qualität der Beschreibung ab

KI-generierte Bilder bieten unzählige Möglichkeiten für den privaten, aber auch für den kommerziellen Einsatz. So haben zum Beispiel die Wochenzeitung „The Economist“ sowie das Frauenmagazin „Cosmopolitan“ bereits Titelbilder mit KI produzieren lassen. Aber auch für die private Website kann ein per DALL-E 2.0, Midjourney oder Stable Diffusion erstelltes Bild neue Möglichkeiten eröffnen. Doch die neue Art der Bebilderung bringt auch Probleme mit sich: Die Frage nach der Urheberschaft ist derzeit nicht geklärt, und viele Künstler sehen darin eine Gefahr für ihr Schaffen. Auch muss man sich darüber bewusst sein, dass die Qualität der KI-Bilder stets besser wird und bereits jetzt fortwährend Bildmanipulationen aufgedeckt werden, ohne dass dabei auch noch eine künstliche Intelligenz mitmischt. Dennoch: Das Potenzial der vorgestellten KI-Modelle ist schon jetzt faszinierend, und wir können gespannt sein, was da noch alles kommt.