Trend K.I.-Kunst - Was können Text-zu-Bild-Generatoren?
Seit einigen Monaten ist ein neues Phänomen im Internet zu beobachten: Mithilfe einer künstlichen Intelligenz werden innerhalb weniger Minuten Kunstwerke oder sogar fotorealistische Bilder erstellt. Text-zu-Bild-Generatoren wie Midjourney oder Dall-E 2 verarbeiten Bildinformationen, die im Netz existieren, und setzen sie neu zusammen. Doch ist das mehr als nur reine Spielerei? Und wie weit kann und darf diese Kunst gehen?
Neue Kunst ohne Künstler
Der Grundgedanke dieser Technologie ist, dass man Stichwörter in eine Suchleiste eingibt und eine künstliche Intelligenz (KI, oder englisch: AI) basierend auf dieser Vorlage – die als „Prompt“ bezeichnet wird – ein Bild generiert. Der Fantasie sind dabei keine Grenzen gesetzt: ob Landschaften, Portraits oder Architektur, Comic- und Videospielfiguren in artfremden Settings oder bekannten Kunststilen, fantastische oder absurde, niedliche oder gruselige Kreationen. Die KI sucht unter Verwendung der angegebenen Parameter im Internet nach Material und schafft innerhalb weniger Minuten ein Bild oder auch mehrere Bilder. Dabei können Sie nicht nur konkrete Worte eingeben, auch abstrakte Begriffe wie Hoffnung oder Sehnsucht können so – mit ungewissem Ausgang – verbildlicht werden.
Wer sich mit dieser Art der Bildergenerierung beschäftigt, kann regelrecht süchtig danach werden. Zwar ist es manchmal ungewiss, wie die KI mit den Vorgaben umgeht, also ob am Ende wirklich das herauskommt, was Sie sich vorgestellt haben. Doch was im privaten Raum eher eine Spielerei und ein abwechslungsreicher Zeitvertreib ist, kann im professionellen Rahmen für Design- und Illustrationsarbeiten durchaus nützlich sein. Wichtig zu wissen ist, dass die Programme auf Englisch arbeiten und Sie dementsprechend mit deutschen Worten keine oder nur sehr spärliche Ergebnisse erzielen werden. Außerdem sind die KIs mit Wortfiltern ausgestattet, die verhindern, dass gewaltverherrlichende oder pornografische Inhalte erstellt werden.
Beispielhaft haben wir verschiedenen Text-Bild-Generatoren auf Basis der Stichworte „Gewitter über Gebirge, Sonnenblumen auf Feld, Hirsch, Malerei“ ausprobiert, um zu sehen, wie die einzelnen Programme damit arbeiten.
Midjourney
Eine der beliebtesten Plattformen für Text-Bild-Generatoren ist Midjourney. Sie befindet sich derzeit noch in einer Open-Beta-Version, ist also noch in einem Entwicklungsstadium, kann aber bereits öffentlich genutzt werden. Zugang erhalten Sie über einen Discord-Channel. Daraufhin wird in Ihrem Account eine Galerie Ihrer Werke und Arbeitsaufträge erstellt. Ein Testaccount erlaubt Ihnen, etwa 25 bis 30 Bilder zu erstellen. Eine wichtige Maßeinheit im Midjourney-Kosmos sind die GPU-Minuten: Je höher die Qualität eines Bildes sein soll, desto länger braucht die KI, um es zu erstellen. Somit können für ein Bild unterschiedlich hohe „Kosten“ an GPU-Minuten anfallen. Ein 30-tägiger Account mit einem Guthaben über 200 GPU kostet 11,90 Dollar.
Was Sie mit Midjourney erstellen können, ist extrem detailreich und vielfältig. Die von der KI ausgegebenen Beispiele sind in der Qualität verbesser- oder im Design variierbar. Sie können fotorealistische oder 3D-gerenderte Bilder schaffen – mit den jeweiligen Stichworten auch in der Optik von Ölgemälden oder im Mangastil. Selbst mit vielen Stichworten auf einmal erreichen Sie beeindruckende Ergebnisse. Nur im Detail erkennen Sie manchmal Unvollkommenheiten, etwa bei Augen oder unmöglich anmutender Architektur.
Dall-E 2
Das Programm von OpenAI, die auch einen Textgenerator entwickelt haben, befindet sich ebenfalls noch in einer Entwicklungsphase und wird seit April 2022 als Closed Beta angeboten. Einen Zugang erlangen Sie nur, wenn Sie sich auf eine Warteliste setzen lassen und eine Einladung erhalten. Sie können angeben, ob Sie etwa als IllustratorIn, EntwicklerIn oder in der Forschung tätig sind. Mit einem Testzugang erhalten Sie die Möglichkeit zu 50 Suchbefehlen („Credits“), danach zu monatlich 15 weiteren. Wenn Sie mehr kreieren wollen, können Sie je 115 Credits für etwa 15 Euro kaufen. Laut OpenAI sind derzeit (Stand: 12. Juli 2022) knapp über 100.000 externe Personen im Besitz eines Zugangs.
Dall-E – eine Wortschöpfung aus dem Disney-Roboter Wall-E und dem surrealistischen Künstler Salvador Dalí – kann von fotorealistischen bis hin zu abstrakten Werken eine breite Palette an Stilrichtungen abbilden. Die Ergebnisse hängen stark davon ab, wie die Worte im Prompt angeordnet sind und wie genau die Anweisungen an das Tool sind. Mit den richtigen Begriffen können Bilder auch als Produktfotos herhalten. Schwächen zeigt Dall-E 2, wenn es an fotorealistische Bilder von Menschen geht. Da das Programm Informationen aus dem ganzen Netz sucht und in einem Bild verarbeitet, kann es zu seltsam verzerrten Gesichtern oder unnatürlichen Details kommen. Auch mit der Darstellung von Wörtern beziehungsweise Schriftzügen hat das Tool noch seine Probleme.
CrAIyon
Dieses Tool, das ursprünglich als Dall-E Mini – in Anlehung an das oben genannte Vorbild – an den Start ging, kreiert innerhalb von zwei Minuten neun kleine Bilder. CrAIyon – eine Wortmischung aus „crayon“ (Kreide) und AI – ist kostenlos verfügbar, liefert aber qualitativ weniger beeindruckende Werke als beispielsweise Midjourney. Je mehr Stichworte Sie nutzen, desto länger dauert der Bearbeitungsprozess – und desto größer ist das Risiko, dass das Ergebnis von dem abweicht, was Sie sich vorgestellt haben. Die Darstellung von Menschen ist sehr ungenau und abstrakt; bekannte Persönlichkeiten können jedoch erkannt werden, da das Programm mit den im Internet vorhandenen Ressourcen arbeitet. Je mehr Bilder es von konkreten Personen oder popkulturellen Charakteren gibt, desto besser ist das Ergebnis. CrAIyon ist mehr eine Inspirationsquelle als digitales Artwork und findet vor allem auf Meme-Plattformen AnhängerInnen.
Dream by Wombo
Der KI-Kunst-Generator Dream arbeitet schnell: Innerhalb weniger Sekunden kreiert er ein Bild. Format und Rahmen des ausgegebenen Werks sind im Stil eines Sammelkartenspiels gehalten. Das Tempo, in dem das Tool arbeitet, lädt dazu ein, dieselben Stichwörter noch einmal verarbeiten zu lassen, um ein anderes Bild zu erhalten – immerhin ist es kostenlos. Ganz einfach können Sie aus vorgegebenen Stilen wählen, die unterschiedliche Ergebnisse bringen – von realistischen oder HD-gerenderten Versionen bis hin zum Stil der Videospielreihe Dark Souls, des Anime-Studios Ghibli oder in Steampunk-Optik. Dream eignet sich beispielsweise gut zur Erstellung von Illustrationen und Ideensammlung für eigene Projekte wie Video- oder Gesellschaftsspiele und Bücher.
Ausblick auf die Entwicklung
Im Internet lässt sich ein wahres Füllhorn an Werken aus der „Feder“ verschiedener KI-KünstlerInnen finden. Der Austausch innerhalb der Communitys einzelner Text-zu-Bild-Generatoren ist groß. Jetzt noch von einem Trend zu sprechen, ist beinahe schon zu spät. Die ersten Online-Plattformen für (digitale) Kunstwerke haben bereits angekündigt, Accounts zu sperren, die mit KI erstellte Bilder veröffentlichen – wenngleich die bekanntesten Seiten Artstation und DeviantArt diesen Schritt noch nicht gegangen sind. In Colorado hat derweil ein per Midjourney erstelltes Bild einen Kunstwettbewerb gewonnen – ohne das Wissen der Jury. Ein fader Beigeschmack dieses Trends bleibt daher, da es scheinbar keinen Menschen mehr braucht, um Kunst zu schaffen.
Imagen von Google
Bei der wachsenden Fülle an KI-Kunst und der damit verbundenen Fanbase ist es nicht verwunderlich, dass auch ein Web-Riese wie Google schnell auf diesen Zug aufspringt. Das Unternehmen entwickelt derzeit einen Text-zu-Bild-Generator, der besonders im Bereich des Fotorealismus die Konkurrenten in den Schatten stellen will. Verfügbar ist die Software noch nicht; auf der Homepage ist jedoch schon zu sehen, was mit dem Tool möglich sein soll. Versprochen wird seitens der EntwicklerInnen ein „beispielloser Grad an Fotorealismus und ein hohes Level an Textverständnis“.
Teaserbild: © Jenar / stock.adobe.com | Abb. 1: © Marcos / stock.adobe.com | Abb. 2-5: @ Netzsieger