01. Mär 2024 Erstellt von Alexander Jordan
Bildgenerierung mit Künstlicher Intelligenz hat in kurzer Zeit große Fortschritte gemacht. Schon lange waren Hände und Gesichter, aber auch Text in Bildern eklatante Schwachpunkte.
Das Problem von Händen mit sechs Fingern oder Gesichtern, die eher Frankenstein-Fantasien weckten, gehören dank der neuesten Bildgenerierungsmodelle, wie Stable Diffusion XL oder Midjourney 5.x eher der Vergangenheit an.
Hier einmal ein Vergleich mit dem Prompt “face of a young women” in Midjourney mit Version 1 und Version 5.
Version 1
Version 5
Vergleich Midjourney V1 versus V5
Der neue Anbieter im Textgenerierungsfeld Ideogram glänzt bereits vom Start weg mit guten Textgenerierungsfähigkeiten in seinen Bildern. Hier einmal das Ergebnis des Prompts “a wall of a living room in an urban apartment with a neon light writing saying KI Toolparty was here“. Von den vier erzeugten Varianten war eine dabei, die den vollständigen Text wie “gepromptet” generiert zeigt, die anderen haben nur den ersten Teil erzeugt - KI Toolparty - und diesen zumindest bei zwei Varianten richtig geschrieben.
Die letzte Version des Bild Generierungs-Systems Stable Diffusion in der Version XL kann nur einfache Texte generieren. Ich testete das mit dem gleichen Prompt “a wall of a living room in an urban apartment with a neon light writing saying KI Toolparty was here“. Das Ergebnis fiel leider schon deutlich schlechter aus als bei Ideogram. Bei einer von vier Varianten war zumindest der erste Teil - KI Toolparty - erzeugt, allerdings nicht zusammengeschrieben, sondern als - KI Tool Party - .
Nachdem ChatGPT seine Fähigkeiten neben Text auch mit Bild und Daten umzugehen, hat der vormals als eigenständiger Dienst bestehend Bildgenerierungsservice Dall-E mit der Fassung Version 3 in ChatGPT Einzug erhalten. Auch dieser kann Text im Bild darstellen. Da hier auch Deutsch eine akzeptierte Eingabesprache ist, haben wir den Prompt auf Deutsch eingegeben. Allerdings noch mit dem vorangestellten Hinweis, das die Aufgabe ist ein Bild zu erzeugen. Hier der Prompt: Erstelle folgendes Bild: eine Wohnzimmerwand in einer städtischen Wohnung mit einem Neonschriftzug, auf dem steht "KI Toolparty was here". Dall-E 3 erzeugt immer nur ein Bild. Das erste hat nicht geklappt, der 2. Anlauf war dann in Ordnung, allerdings das KI war nicht sehr leserlich. Anlauf 3 und 4 war dann wiederum nicht korrekt.
Vielleicht ist das mit der Neonreklameschrift auch etwas herausfordernd, deshalb hatte ich den Prompt noch einmal abgewandelt: “a wall of a living room in an urban apartment with a poster saying KI Toolparty was here”
Das Ergebnis war jedoch wieder nicht zufriedenstellend. Denn perfekt korrigieren konnte ich es in diesem Fall auch nicht.
Fazit, die Möglichkeit Text in Bilder zu bekommen, ist ein Feature, das bereits 3 Bildgenerierer bieten. Vorreiter war hier im August 2023 Ideogram aber Dall-E und Midjourney haben mit Ihren neueren Versionen noch im Jahre 2023 nachgezogen. Midjourney verbessert insgesamt stetig seine Qualität und Features, darunter auch die Textfähigkeit. Am 22. Februar wurde Stable Diffusion 3 angekündigt, u.a. mit hervorragenden Textfähigkeiten. Es bleibt spannend, zu beobachten, wie die Textfähigkeiten sich entwickeln werden.