In seiner Funktionalität auf die Lehre in gestalterischen Studiengängen zugeschnitten... Schnittstelle für die moderne Lehre
In seiner Funktionalität auf die Lehre in gestalterischen Studiengängen zugeschnitten... Schnittstelle für die moderne Lehre
Neuronaler Stiltransfer des eigenen Malstils: Individualisierung, Kontrolle und Autorschaft im Einsatz generativer KI am Beispiel einer Graphic Novel
Digitale Medien bieten gegenüber analogen in der Illustration eine höhere Flexibilität und Geschwindigkeit, unterscheiden sich jedoch visuell. Aufgrund des hohen Zeitaufwands und der eingeschränkten Flexibilität, alle Panels einer Graphic Novel analog zu malen, untersuche ich, ob sich eine generative künstliche Intelligenz auf meinen analogen Stil trainieren und auf digitale Zeichnungen anwenden lässt. Ziel ist die Entwicklung einer hybriden Graphic Novel, bestehend aus analog digitalisierten und digital erzeugten, analog-imitierten KI-Bildern.
Die Forschungsmethode ist als autobiografisches Design angelegt. Als Anwender und Entwickler zugleich trainiere und optimiere ich ein KI-Modell auf meinen eigenen Stil, um technologische Möglichkeiten und Grenzen in der gestalterischen Praxis zu erproben. Ergänzend führe ich eine quantitative und qualitative Befragung mit 44 Teilnehmer:innen sowie drei Expert:inneninterviews durch, um visuelle Authentizität, Qualität und ethische Implikationen zu bewerten.
Technisch basiert der Workflow auf der Open-Source-Software ComfyUI, Stiltraining mittels Stable-Diffusion-XL-LoRAs und semantischen Vorgaben im Image-to-Image-Verfahren. Damit werden zentrale Probleme des Text-to-Image-Ansatzes adressiert, darunter fehlende Verkörperung, linguistische Limitationen, mangelnde Kontrolle sowie die Entkopplung von Stil und Inhalt, um gestalterische Autonomie und Autorschaft zu wahren.
Die Ergebnisse erreichen ästhetisch eine hohe Qualität und kommen meinen Originalen sehr nahe, was auch die Umfrage bestätigt. Die Proband:innen konnten die originalen Ölbilder nicht von den analog-imitierten KI-Bildern unterscheiden und bewerteten letztere teils als ästhetischer, echter und authentischer.
KI kann technologisch eingesetzt werden, um analoge und digitale Ästhetik zu verbinden und hybride Graphic Novels zu entwickeln, erfordert jedoch ein hohes Maß an Feinjustierung. Durch semantische Vorgaben und den bewussten Einsatz von Zufälligkeit kann die Autorschaft im Prozess gewahrt werden.
Ökonomisch bietet der Einsatz Potenzial durch Flexibilität, Effizienz und erweiterte Gestaltungsmöglichkeiten, bringt jedoch ethische Herausforderungen mit sich.
Da gefälschte Materialität und Originale nicht mehr unterscheidbar sind, erscheint eine Kennzeichnungspflicht, wie im EU AI Act vorgesehen, sinnvoll und entspricht auch der Meinung der Befragten der Umfrage.
Als kritischsten Aspekt identifiziere ich die Nutzung urheberrechtlich geschützter Daten, wie sie im Datensatz LAION-5B enthalten sind und für die Generalisierungsfähigkeit des Basismodells Stable Diffusion XL erforderlich sind, um eine ästhetische Qualität zu erreichen, die mit ethischen Modellen bislang nicht möglich ist. Da ich keine fremden Stile repliziere und ein künstlerisches Werk nicht im Massenmarkt verorte, wodurch kein signifikanter Wettbewerbsdruck unter Gestalter:innen entsteht, legitimiere ich den Einsatz im Sinne eines Werkzeugs unter der Bedingung, auf die Problematik hinzuweisen, den Diskurs anzuregen und Gestalter:innen Möglichkeiten aufzuzeigen, künstliche Intelligenz eigenständig in gestalterischen Prozessen einzusetzen, um ein Stück Kontrolle über diese Technologie zurückzugewinnen.
Digital media offer greater flexibility and speed compared to analog techniques in illustration, yet they differ visually. Due to the high time demands and limited flexibility of painting all panels of a graphic novel analogically, I investigate whether a generative artificial intelligence can be trained on my analog style and applied to digital drawings. The aim is to develop a hybrid graphic novel composed of digitally reproduced analog paintings and digitally generated, analog-imitating AI images.
The research method follows an autobiographical design approach. As both user and developer, I train and fine-tune an AI model on my own style in order to explore technological possibilities and limitations within design practice. In addition, I conducted a quantitative and qualitative survey with 44 participants as well as three expert interviews to assess visual authenticity, quality and ethical implications.
Technically, the workflow is based on the open-source software ComfyUI, style training via Stable Diffusion XL LoRAs, and semantic conditioning in the image-to-image process. This approach addresses key problems of text-to-image generation including lack of embodiment, linguistic limitations, insufficient control and the style and content disentaglement, in order to preserve creative autonomy and authorship.
The results achieved high aesthetic quality and closely resembled my originals, a finding confirmed by the survey. Participants were unable to distinguish the original oil paintings from the AI-generated analog-imitating images and in some cases rated the latter as more aesthetic, genuine and authentic.
AI can be used technologically to bridge analog and digital aesthetics and to develop hybrid graphic novels, though it requires significant fine-tuning. Through semantic conditioning and the conscious use of randomness, authorship can be preserved in the process.
From an economic perspective, AI offers potential in terms of flexibility, efficiency and expanded design possibilities, yet it also raises ethical challenges. As forged (faux) materiality and originals can no longer be distinguished, a labeling requirement as outlined in the EU AI Act appears meaningful and corresponds with the opinions expressed by survey participants.
The most critical issue is the use of copyrighted data, as found in the LAION-5B dataset, which is necessary for the generalization capabilities of the Stable Diffusion XL base model in order to achieve aesthetic quality, something that ethical datasets alone cannot yet provide. Since I do not replicate the styles of other artists and do not position the work in the mass market, thus avoiding significant competitive pressure among designers, I legitimize its use as a tool under the condition of pointing out the problem, fostering discourse and demonstrating to designers ways of independently employing artificial intelligence in creative processes as a means of regaining some control over this technology.
Ich arbeite mit verschiedenen Stilen, die je nach Medium unterschiedlich wirken. Ölmalerei erzeugt durch Textur und Strichführung andere Ergebnisse als digitale Zeichnungen, die zwar mit Brushes analoge Medien imitieren, deren Materialität aber nur begrenzt erreichen. Digital eröffnen sich dafür neue Möglichkeiten wie Ebenen, Transparenzen und Werkzeuge, die flexibler, präziser und schneller sind.
Ausgangspunkt dieser Arbeit ist eine Graphic Novel, die ich ursprünglich in Öl malen wollte. Aufgrund des enormen Zeitaufwands von rund 800 Stunden allein für Entwurf und Übertragung ins analoge Medium habe ich mich für die digitale Variante entschieden. Hinzu kommt die Schwierigkeit, im analogen Medium nachträgliche Änderungen vorzunehmen. Digital lassen sich dagegen Stilelemente und Layouts flexibel anpassen, auch durch KI-gestützte Funktionen wie Photoshops generative Erweiterung.
Diese Überlegungen führten dazu, mein Medium zu wechseln. Trotz meiner Vorliebe für Öl habe ich erkannt, dass Flexibilität und Konsistenz im digitalen Arbeiten überwiegen. Daraus führt mich zu der Forschungsfrage:
Lässt sich mithilfe generativer künstlicher Intelligenz ein analoger Stil auf digitale Zeichnungen übertragen, um eine hybride Graphic Novel in einem einheitlichen Stil zu entwickeln?
Neben der technisch-angewandten Forschungsfrage möchte ich auch untersuchen, welche Auswirkungen dies auf unser Verständnis von Selbstwirksamkeit, Autor:innenschaft und Authentizität hat und wie diese moralisch sowie ästhetisch bewertet werden.
Ich arbeite mit einem autobiografischen Designansatz, da ich das System selbst entwickle, nutze und untersuche. In einer Studie von Porquet et al.1 zeigte sich, dass Künstler:innen ihre eigenen mit KI generierten Werke am kritischsten bewerten, da sie den eigenen Stil am besten kennen. Während Forscher:innen den Stiltransfer als technisch erfolgreich einstufen, bewerten die Illustrator:innen die Ergebnisse als wenig überzeugend, da sie nur eine Momentaufnahme darstellen und die künstlerische Praxis nicht abbilden. In meiner Arbeit möchte ich diese Probleme in Bezug auf Qualität und Autor:innenschaft aufgreifen, indem ich als Entwickler und Anwender eigene feinjustierte Modelle und Workflows erprobe.
Ergänzend führe ich eine quantitative und qualitative Befragung mit 44 Teilnehmer:innen sowie einen Turing-Test durch, in dem die Unterscheidbarkeit analoger und KI-generierter Materialität geprüft wird. In drei Expert:inneninterviews mit Illustrator:innen hole ich weitere Perspektiven zu ästhetischer Wirkung, hybriden Methoden und ethischen Implikationen ein.
Porquet, J., Wang, S., & Chilton, L. B. (2025). Copying style, Extracting value: Illustrators’ Perception of AI Style Transfer and its Impact on Creative Labor. Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems, 1–16. Verfügbar unter: https://doi.org/10.1145/3706598.3713854 ↩︎
In meiner Masterarbeit habe ich im theoretischen Teil diverse Probleme generativer künstlicher Intelligenz identifiziert und zusätzlich zur Methodik des autobiografischen Designs ein technisches methodisches Vorgehen entwickelt, um diese Problemfelder zu adressieren:
Problem | Methode | Technologie |
---|---|---|
Qualitative Dissonanz zwischen Anwender:in und Entwickler:in | Autobiografisches Design | Alle Systeme |
Fehlende Autorschaft und semantische Kontrolle | KI als Werkzeug, hybrides Medium, Semantik durch eigene Bilder | Digital Painting (Photoshop), ComfyUI, Fine-Tuning (LoRA) |
Fehlende Prozesshaftigkeit und künstlerische Praxis | KI-Finetuning / Interaktion als künstlerischer Prozess | ComfyUI, Photoshop, Fine-Tuning (LoRA) |
Linguistische Limitation durch Text | Bild als Prompt und Kontrolle durch Adapter | IP-Adapter, Image-to-Image, ControlNet |
Fehlende Verkörperlichung und Materialität | KI-Training des eigenen Stils / Duktus | Fine-Tuning (LoRA) mit eigenem Stil |
Ich werde neuronale Netze für den Stiltransfer (Neural Style Transfer) einsetzen. Dieses Verfahren geht auf die Arbeiten von Gatys et al. (2015)1 zurück und beschreibt eine Forschungsdisziplin innerhalb der generativen künstlichen Intelligenz, die den Stil eines Bildes auf den Inhalt eines anderen überträgt. Dafür braucht es einen Prompt mit dem Inhalt, etwa „ein Tiger“, und ein Bild als Stilreferenz, beispielsweise „Starry Night“ von Van Gogh. In meinem Fall nutze ich statt Textprompts Bilder, die die semantischen Vorgaben liefern, und versuche auf dieser Grundlage meinen analogen Ölmalstil zu übertragen.
Gatys, L. A., Ecker, A. S., & Bethge, M. (2015). A Neural Algorithm of Artistic Style (No. arXiv:1508.06576). arXiv. Verfügbar unter: https://doi.org/10.48550/arXiv.1508.06576 ↩︎
Stiltransfer kann über verschiedene Methoden erreicht werden. Ich habe die kommerziellen Bildgeneratoren Photoshop und Midjourney als Vergleich getestet und anschließend eigene Modelladapter (B-LoRA, LoRA) trainiert sowie Image-Prompt-Adapter (IP-Adapter) basierend auf Stable Diffusion XL erprobt und miteinander kombiniert.
Midjourney kann meinen Stil einigermaßen gut übertragen, allerdings nur, wenn die Bildgewichtung des Inhalts nicht zu stark ist. Bildprompts (Image-to-Image) scheinen nämlich nicht nur inhaltliche Elemente, sondern auch stilistische Eigenschaften zu übertragen, wodurch die Stilreferenz abgeschwächt oder sogar überschrieben werden kann. Wird die Bildgewichtung gesenkt, wird der Stil zwar besser übertragen, allerdings verliert sich dabei die inhaltliche Orientierung. Es ist in meinen Tests daher bislang nur schwer oder kaum möglich, in Midjourney meinen analogen Malstil exakt auf eine gewünschte Komposition zu übertragen.
Die neuronalen Filter können in Photoshop, einer Zeichensoftware von Adobe, nicht ansatzweise den Stil auf eine digitale Vorzeichnung übertragen. Sie erkennen nicht die Linienführung der Striche, und die Texturübernahme scheitert. Es fehlen Parameter, um zum Beispiel auch die Größe der Textur oder die Strichstärke zu übernehmen.
ComfyUI (Yoland et al., 2024) ist eine node-basierte grafische Benutzeroberfläche (GUI) für Anwendungen zur Entwicklung eigener KI-Workflows, unter anderem mit Modellen wie Stable Diffusion.
Beim Image-to-Image-Prompt wird bei Stable Diffusion anstelle eines leeren latenten Bildes ein Startbild für den Diffusionsprozess verwendet. Über einen Stärkeparameter lässt sich einstellen, wie stark das ursprüngliche Bild im latenten Raum verrauscht und anschließend entrauscht werden soll, sodass neue Bildinhalte auf dieser Grundlage interpretiert werden können. Die Kombination aus Text und Bild ist dabei weiterhin möglich, um das Ergebnis gezielt zu beeinflussen (Image-to-image, 2025).
Grundsätzlich können Modelle wie Stable Diffusion meinen Stil nicht reproduzieren, sofern sie nicht auf Bilddaten von mir trainiert wurden, die auch entsprechend in den Bildkennzeichnungen, etwa in den „alt-Tags“, enthalten waren und im Datensatz vorhanden sind (Harlan & Brunner, 2023), oder ich das Modell nicht explizit durch Finetuning-Methoden erweitert habe.
Der IP-Adapter ist ein (Image-Prompt) Adapter, das an bestehende Stable-Diffusion-Modelle angehängt werden kann und das Prompten auch mit Bildern ermöglicht. Auf diese Weise können strukturelle Merkmale des Referenzbildes in das Ergebnis einfließen.1
Ye, H., Zhang, J., Liu, S., Han, X., & Yang, W. (2023). IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models (No. arXiv:2308.06721). arXiv. Verfügbar unter: https://doi.org/10.48550/arXiv.2308.06721 ↩︎
B-LoRA ist ein spezielles LoRA-Modell, das von Frenkel et al. (2025)1 für eine inhaltsunabhängige Stilübertragung entwickelt wurde.
Die Methode basiert auf der Architektur von Stable Diffusion XL und ermöglicht es, Stil und Inhalt innerhalb eines Bildes gezielt voneinander zu trennen. Dadurch kann der Stil einer Vorlage auf neue Inhalte übertragen werden, ohne deren Struktur oder Bedeutung zu verändern.
Frenkel, Y., Vinker, Y., Shamir, A., & Cohen-Or, D. (2025). Implicit Style-Content Separation Using B-LoRA. Lecture Notes in Computer Science, 181–198. Verfügbar unter: https://doi.org/10.1007/978-3-031-72684-2_11 ↩︎
Mit OneTrainer (Nerogar, 2025), einer grafischen Benutzeroberfläche zur Erstellung von LoRAs und fine-tuned Modellen, habe ich ein Stable Diffusion XL LoRA auf Basis aller 49 bisherigen Ölgemälde aus meiner Graphic Novel trainiert.
Der Trainingsdatensatz besteht aus 49 gescannten Ölbildern:
Methode | Input Bilder | Trainingsdauer | Modell / Promptsteuerung | Stärke | Schwäche |
---|---|---|---|---|---|
Photoshop (Adobe)Neural Filter | 1 | kein Training | Image-to-Image | schnell und einfach zu bedienen | Stil wird nicht übertragen |
Midjourney | 1 | kein Training | Multimodal | schnell und einfach zu bedienen | Inhalt auf Kosten des Stils,zu starke Abweichung von der Referenz |
SDXL IP-Adapter | 1 | kein Training | Image-to-Image / beeinflusst U-Net über „Cross-Attention Layer“ | Feine Details/Texturen, schnell und flexibel | Allgemeines Duktus-, Stil- und Texturverständnis begrenzt |
SDXL B-LoRA | 1 | 1,5 Stunden,1 Bild, 1000 Epochen | Modell: beeinflusst zwei Blöcke, die für Stil und Inhalt entscheidend sind | Gute Texturübernahme,nur ein Bild fürs Training + schnelles Training | Duktus und Stilverständnis begrenzt |
SDXL LoRA (OneTrainer) | 49 | 16 Stunden,49 Bilder, 1000 Epochen | Modell: beeinflusst eingefrorenes Modell über zwei „Low-Rank“-Matrizen | Gute Duktusübernahme und allgemeines Stilverständnis | Textur-Transfer nicht optimal,größerer Trainingsdatensatz + längeres Training |
In meinem finalen KI-Modell habe ich die Vor- und Nachteile der Methoden wie dem IP-Adapter sowie die Gewichtungen der trainierten B-LoRA und LoRA kombiniert und auch die besten Ergebnisse erzielt, die meinem Duktus am nächsten kommen.
Ein Problem, das bei der Generierung auftrat, war, dass Flächen ohne erkennbare Strukturen oft nicht texturell angepasst wurden. Da ich die Bilder nicht besonders stark verrausche (0,25–0,35), werden in Bereichen mit zu wenig Strukturinformation keine Pinseltexturen angewandt.
Um dieses Problem zu umgehen, habe ich dem Bild vor der Einspeisung in den VAE leichtes Pixelrauschen hinzugefügt. Durch das Einfügen minimaler Bildinformationen auf Pixelebene entsteht selbst in ehemals weißen Flächen eine gewisse Struktur, von der ausgehend neue Pinseltexturen interpretiert werden können.
Der finale ComfyUI-Workflow beinhaltet nicht nur das KI-Modell, sondern organisiert einen automatisierten Generierungsprozess, um die einzelnen Comicpanels zu bearbeiten und stilistisch anzupassen. Mit dem ComfyUI-Plugin SDPPP können die einzelnen Panels an ComfyUI gesendet, dort bearbeitet und anschließend wieder zurück in Photoshop übertragen werden. Über das Plugin lassen sich außerdem die einzelnen Parameter in einem User-Interface-Fenster in Photoshop direkt einstellen.
Grundsätzlich wurden meine Erwartungen an die Ergebnisse des Stiltransfers durch fine-getunte, frei zugängliche KI-Modelle wie SDXL übertroffen. Ich hätte zuvor nicht für möglich gehalten, dass auf einem lokalen Rechner eine derartige Qualität mithilfe von fine-getunten Modellen erzielt werden kann. Sowohl der Duktus als auch die Texturen konnten in meinen finalen Tests überzeugend übertragen werden, auch wenn dies erst nach mehreren Anläufen und Finetuning-Prozessen gelang. Obwohl ich meinen eigenen Stil sehr gut kenne und die generierten Bilder für meinen kritischen Blick nicht vollständig mit den Originalen mithalten können, bringt das Digitalisieren von Ölbildern gewisse Nachteile mit sich. In einigen Fällen übertrifft die KI-imitierte Materialität die digitalisierten „Originale“ sogar in ihrer ästhetischen Wirkung. Ziel ist dabei jedoch nicht, einen Wettbewerb zwischen analoger und digitaler Ästhetik zu eröffnen, sondern beide Ansätze so zu kombinieren, dass ihre visuelle Differenz möglichst gering bleibt. Dafür ist aus meiner Sicht eine hinreichende Qualität erreicht worden.
Vergleich zwischen KI-überarbeitet und Digital
Schilf: Öl, KI-überarbeitete und digitale Zeichnung
KI-imitierte Materialität konnte in der Umfrage mit 44 Befragten nicht nicht mehr von „echter“ analoger Materialität unterschieden werden.
Deepfakes von Materialität sind technisch möglich, und eine Kennzeichnung wird sowohl rechtlich durch den EU AI Act als auch ethisch von den Umfrageteilnehmer:innen meiner Studie gefordert.
Insgesamt werden die KI-überarbeiteten Werke sowohl im Vergleich zu den digitalen als auch zu den analogen Ölbildern besser bewertet. Im Vergleich zu den Ölbildern fällt der Anteil mit 54,5 % etwas geringer aus als im Vergleich zu den digitalen Zeichnungen, bei denen 58,5 % die KI-Version bevorzugen.
Vergleich und Bewertung der ästhetischen Qualität zwischen KI-Bildern und analogen Bilder, sowie zwischen KI-Bildern und ihren digitalen Vorzeichnungen:
Für mich haben die digital KI-überarbeiteten Zeichnungen paradoxerweise mehr von meiner Handschrift als die rein digitalen. Das hängt damit zusammen, dass ich selbst vor allem im Medium Öl arbeite und in Photoshop selten dieselben Pinsel verwende. Am Anfang habe ich sogar Flächen mit dem Lasso-Tool schablonenartig ausgemalt und musste später digitale Zeichnungen stilistisch an neue Arbeiten angleichen. In Öl male ich mit einer Mischung aus Borsten- und Synthetikpinseln und variiere je nach Inhalt zwischen glattem und pastosem Farbauftrag. Auch wenn die KI-Ergebnisse semantische Schwächen im Verständnis des Bildaufbaus zeigen, können sie sich dennoch neben den Ölbildern einfügen und eine visuelle Einheit mit den Originalen bilden, ohne dass für mich eine größere ästhetische Differenz entsteht. Teilweise erscheint diese sogar geringer als innerhalb der rein digitalen Zeichnungen.
Vergleich zwischen hybrider Seite (gemischt aus Öl und KI-angeglichenen Bildern) und digitaler Seite
Durch den hohen Grad der Kontrolle, dem eigenen Finetuning auf meinen Stil, fühlen sich die Werke nach meiner Kreation an, sofern ich die semantischen Inhalte so gut es geht durch digitale Zeichnungen vorgebe und steuern kann. Prompte ich mit Text oder stelle die Parameter so ein, dass die KI neue Inhalte halluziniert, fühlen sich die Ergebnisse nicht nach meinen Kreationen an und ähneln ungefähr dem „Reinkritzeln in meine Zeichnungen“ durch eine fremde Person.
Bilder bei dem das KI-Modell neue Inhalte hineininterpretiert, wie z.B. Hunde oder Gesichter
Text-to-Image Bildgenerationen und Reproduktionen von Szenen mit dem fine-tuned KI-Modell
Ich habe den Stromverbrauch meiner Grafikkarte grob überschlagen und in Relation gesetzt, um eine ungefähre Einschätzung über den Stromverbrauch und CO2-Ausstoß zu erhalten. Die Angaben sind geschätzt und hängen von der Hardware, dem KI-Modell und anderen Faktoren ab.
Der Energiebedarf einer Handyladung (10 Wh) entspricht in meinem Fall ungefähr der Generierung von 4,5 Bildern oder das Erhitzen des Wassers für eine Tasse Tee entspricht in etwa dem Generieren von 15 Bildern.
CO2-Fußabdruck
Das Generieren von Bildern mit KI verursacht im Vergleich zu analogen Medien einen geringeren CO₂-Fußabdruck, sofern das Training des Modells unberücksichtigt bleibt. Dieses erfordert mit etwa 7,6 kWh jedoch einen erheblichen Stromverbrauch, der nur einmalig anfällt, wenn das Modell anschließend mehrfach genutzt wird. Insgesamt sollte bei intensiver Nutzung von Grafikkarten für KI-Training und Bildgenerierung bedacht werden, dass diese Prozesse beträchtliche Energiemengen beanspruchen. Daher ist es sinnvoll, möglichst auf nachhaltige Energiequellen zurückzugreifen.
Geschätzte CO₂e-Emissionen für 100 Seiten einer Graphic Novel inklusive Vorketten
Als kritischsten Aspekt identifiziere ich die Nutzung urheberrechtlich geschützter Daten, wie sie im Datensatz LAION-2B enthalten sind und für die Generalisierungsfähigkeit des Basismodells Stable Diffusion XL erforderlich werden, um eine ästhetische Qualität zu erreichen, die mit ethischen Modellen bislang nicht möglich ist. Auch in der Umfrage dieser Arbeit spiegelte sich dies wider, da sich die meisten Befragten für die Verwendung ethischer Modelle aussprachen, um den Einsatz von KI zu legitimieren.
Ich hoffe, dass sich in Zukunft die Qualität von Modellen wie beispielsweise Mitsua verbessert und rechtliche Rahmenbedingungen geschaffen werden, die sicherstellen, dass Entwickler:innen nicht ohne Zustimmung urheberrechtlich geschützte Daten verwenden, sondern auf ethische Datensätze setzen.
Bis dahin kann ich mir den Einsatz generativer KI wie SDXL in meinen Projekten nur dann vorstellen, wenn ich diesen auch kennzeichne und thematisiere. Anstatt auf eine Nutzung zu verzichten, sehe ich die Möglichkeit, einen Diskurs anzustoßen und aufzuzeigen, wie ein bewusster und kontrollierter Umgang mit künstlicher Intelligenz als Werkzeug für Künstler:innen gestaltet werden kann, die selbst den Prozess beeinflussen und kontrollieren wollen.
Dabei kann ich auch die in dieser Arbeit behandelten Themen nach außen tragen und die Frage aufwerfen, was Materialität in Zukunft bedeutet und wie sich analoge künstlerische Stile im Digitalen ausprägen und miteinander verschmelzen können.
Die Technologie nicht zu nutzen bedeutet für mich nicht zwangsläufig, ihre Entwicklung zu kritisieren. Genauso wie der Verkauf meiner Kunst nicht ausschließt, dass ich als Künstler:in eine kapitalismuskritische Perspektive auf Lizenzrechte, Selbstvermarktungszwang sowie Wettbewerbs- und Konkurrenzverhältnisse im Gestaltungsmarkt einnehme.
Umfrage zur ethischen Forderungen für den Einsatz von KI:
Welche ethischen Rahmenbedingungen bräuchte es, damit der Einsatz von KI legitim wäre?
Generative KI kann analoge Malstile ins Digitale übertragen und so als Vermittler zwischen analoger und digitaler Ästhetik dienen. Ihr Einsatz erfordert in meinem Fall ein hohes Maß an Kontrolle sowie semantische Vorgaben durch Zeichnungen, um Autorenschaft zu gewährleisten. Vor dem ökonomischen Hintergrund kann KI durch Geschwindigkeit und Flexibilität als Prozessoptimierung verstanden werden, bietet aber zugleich neue gestalterische Möglichkeiten. Ein spielerischer Zugang und eine positive Einstellung zu KI können Autonomie stärken, jedoch auch neue Abhängigkeiten und Komplexität schaffen. Problematisch bleiben Fragen von Urheberrecht, Trainingsdaten und Energieverbrauch, die ethisch und rechtlich reflektiert werden müssen. Das vollständige Fazit ist im PDF der Masterarbeit nachzulesen.
Abschließende Gedanken
Ziel und Ergebnis dieser Arbeit ist weder, ein weiteres KI-Tool zu entwickeln, das in direkter Konkurrenz zu Gestalter:innen steht und den Wettbewerbsdruck weiter erhöht, noch die Fähigkeit von KI zu demonstrieren, Malstile zu imitieren, um Künstler:innen zu ersetzen. Stattdessen wurde aufgezeigt, wie KI im Kontext eigener gestalterischer Projekte gezielt eingesetzt und kontrolliert werden kann, um Autonomie und Autor:innenschaft zu wahren.
Damit soll die Arbeit Künstler:innen ermutigen und inspirieren, KI selbst als gestalterisches Werkzeug zu nutzen, um ein Stück weit Kontrolle über diese Technologie und den damit verbundenen Diskurs zurückzugewinnen.
Zwei Versionen des finalen Buches habe ich als Hardcover in Baumwollgewebe gebunden, welches ich auch für meine Ölfarbpanels und Ölbilder verwende. Das Bild des Covers ist ein in Photoshop erstellter Verlauf, den ich mit meinem KI-Modell überarbeitet und anschließend mit einem Python-Skript graduell verpixelt habe. Das habe ich dann auf das Gewebe gedruckt und einen Teil des Verlaufs mit Acrylfarbe bemalt. Leider bildet Acrylfarbe kein so schönes Impasto wie Ölfarbe, allerdings hatte ich nur noch zwei Tage Zeit, um aus dem Softcover ein Hardcover zu erstellen.
Das KI-Modell welches mit meinen Ölmalstil trainiert wurde, lässt sich nicht nur auf digitale Vorzeichnungen anwenden, die schwarz weiß sind, sondern auch auf jedes beliebiges Bild. Als Grundlagen können farbige Fotos, 3D-Rendering und viele andere verschiedene Bildgrundlagen dienen. Es kann also auch zur Vereinheitlichung eines bestimmten Stils bei Verwendung unterschiedlicher Medien genutzt werden.
Im gesamten Optimierungsprozess des KI-Modells und Workflows musste ich viele Parameter im Trial-and-Error-Verfahren austesten, da es manchmal kaum vorhersehbar ist, welche Wirkung bestimmte Sampler, Scheduler, CFG-Werte, LoRAs oder Denoise-Stärken haben. Dabei sind teils obskure, surreale und abstrakte Werke entstanden, die zwar für meine Graphic Novel nicht nützlich sind, jedoch eine eigene Ästhetik besitzen, die ich nicht vorenthalten möchte.