Neueste KI zur Bilderzeugung

was muß man eingeben, um ein solches bild zu erzeugen?
Das kann ich dir leider nicht mehr genau sagen, ich habe mittlerweile ein CGPT2 Modell mit meinen eigenen Prompts trainiert. Dazu kommen noch ein paar eigene Wortdatenbanken, das kann ich nicht mehr zu 100% rekonstruieren, da ich die immer mal wieder erweitere und eine einzige weitere Zeile alle Zugriffe verschiebt.

Es war was in Richtung:
perspective blush color, soft pink that radiates warmth and gentleness with elements contrasting in Rust dystopic (abstract:1.4) vintage art, surrealism 3d perfect shadows, subversive minimalistic, highly detailed sci-fi, out of center focus, grotesque caricature, techno scifi, hyperrealistic in an evocative style this artwork depicts luminous, ethereal beings gliding through a fractured universe where structures crumble into iridescent dust. Shadows and light blend in an otherworldly dance, signed "Zeph-Orion," immersing viewers in a surreal realm of beauty and decay.
1730098004431.png


Hier der Workflow zu dem Bild:
1730096471659.png
Die obere Reihe mit den 7 Kästen sind alles selbst trainierte Erweiterungen, die das Ergebnis beeinflussen.

Meine Tipps, such dir ein umfangreiches Modell und bleibe eine Weile dabei. Lerne das Modell kennen. Es gibt 'Style' Prompt Webseiten, die besondere Wortkombinationen sammeln, welche besondere Effekte hervorrufen, damit kann man schon gut was anfangen.
Die Modelle reagieren alle unterschiedlich auf die Wörter und Kombinationen. Flux kann keine ''distorted reflections, digital overlays" während bestimmte SDXL Modelle dich dann bei diesen Wörtern mit Effekten zuwerfen. Ein Modell möchte gerne "filigree", das andere möchte lieber "intricate" für dekorative Verschnörkelungen.

Dein Ergebnis steht und fällt mit dem Modell welches du nutzt. Sind keine Boobs drin, kommen auch keine raus.
 
-
1731338899906.jpeg

1731338928895.jpeg


das hier habe ich weder bestellt noch wären die dinge, die man sieht, auch nur annähernd in der prompt enthalten gewesen (ist nämlich die gleiche wie oben). aber irgendwie ist es geil:

1731339105947.jpeg
 
das hier habe ich weder bestellt noch wären die dinge, die man sieht, auch nur annähernd in der prompt enthalten gewesen (ist nämlich die gleiche wie oben). aber irgendwie ist es geil:

1731339105947.jpeg
Definitiv!
 
eine meine aktuellen lieblingstechniken ist immer noch ähnliche bilder - z.b. so wie diese KI sachen - gleichförmig zusammenzumischen. etwas einfacheres gibt es theoretisch betrachtet fast nicht, aber es ist genau deswegn recht effektiv.

alternativ dazu bietet sich an andere lineare copymodes wie z.b. ineinanderkopieren oder screen zu benutzen.

dazu habe ich mir einen kleinen browser gebaut, wo man sie 100 stück weise sehen und dann circa 7-16 davon auswählen kann, dann wird auf knopfdruck eine vorschau erstellt und/oder gerendert.

1731495475010.png

1731495505299.png

1731495533451.png

1731495549819.png

1731495581730.png

1731495608370.png
 
Zuletzt bearbeitet:
dazu habe ich mir einen kleinen browser gebaut, wo man sie 100 stück weise sehen und dann circa 7-16 davon auswählen kann
Sehr feine Idee. Falls du in Python unterwegs bist, schau dir mal FAISS an, ein Algo um ähnliche Bilder zu finden. Ist zwar von meta, aber funktioniert gut. Hatte erst selber was mit einer variablen Matrix gestrickt, aber für 600k 512x512 Kacheln war das nicht praktikabel :)
 
haha, sowas wie "automatisches sortieren" wäre hier in der tat ganz sinnvoll, und zwar immer dann, wenn ein KI prompt so gut ist, dass ich nicht eines sondern 50 hunderterpakete mit zusammengehörigen mache.

bei meinen algorithmischen sachen die ich direkt in max oder GL mache kann ich das ergebnis steuern, bei diesem nicht-lokalen dall-e zeug entsteht fast immer eine gewisse bandbreite an graphisch sehr unterschiedlichen fragmenten.
 
Zuletzt bearbeitet:
das dall-e von microsoft ja ja ein ziemlich mist. das kommt immer mit irgendwelchen bekloppten styles daher, die man nicht selbst eingegeben hat. das sieht dann alles aus wie lego.

mit den russen bin ich echt glücklich. und obige layer technik behebt ja auch das kompressionsartefakte problem. :)
 
Zuletzt bearbeitet:
haha, sowas wie "automatisches sortieren" wäre hier in der tat ganz sinnvoll, und zwar immer dann, wenn ein KI prompt so gut ist, dass ich nicht eines sondern 50 hunderterpakete mit zusammengehörigen mache.
Hab grad mal eine Version zusammengeklickt. Nachdem 30k Bilder indexiert sind, werden die auf Tastendruck durchsucht. Ergebnisse sind unmittelbar da.
 
KI-basiert ist zu komplex für mich, wobei es vermutlich auf einem mac pro 2012 schon laufen würde.

aber es passte nicht ganz zur aufgabe. die entscheidung darüber, was ähnlich ist oder aus anderen gründen zusammenpassen könnte muss hier tendenziell teil des schöpferisches prozesses bleiben.

leider ist maxmsp richtig scheiße darin dateien zu verschieben, zu kopieren oder ordnerstrukturen zu erzeugen.


bin gerade dabei den dalli quatsch mit metasynth zu kombinieren. rot und grün stehen in metasynth für die amplitude von links und rechts.

farben sind geräusche sind essen sind sex...


1731505739403.jpeg 1731505886887.jpeg
 
Ich habe jetzt mal FLUX shuttle 3 in ComfyUI zum Laufen gebracht. Da ich Comfy vorher nie so richtig genutzt habe, sondern alles über A1111 lief, war das nicht ganz einfach aber jetzt geht es. Da das Ganze nur 4 Steps braucht, geht es recht zügig und damit auch annehmbar, was den Stromverbrauch betrifft. Die Graka (4070) verhält sich jedenfalls beim Stromziehen anders als bei Stable Diffusion 1.5 und XL unter A1111.

Erstes Fazit: Menschen kann das Model nicht so gut, die sehen doch recht künstlich aus. Die Plattenspieler mit der Draufsicht dagegen sind die besten Plattenspieler bisher. Die Landschaft sieht auch gut aus. Nichts davon ist upscaled sondern es sind die direkten Auflösungen.

ComfyUI_00052_.png
ComfyUI_00053_.png
ComfyUI_00055_.png
ComfyUI_00056_.png
ComfyUI_00061_turntable.png
ComfyUI_00062_turntable.png
ComfyUI_00063_landscape.png
 
Die Graka (4070) verhält sich jedenfalls beim Stromziehen anders als bei Stable Diffusion 1.5 und XL unter A1111.
Wenn du noch nicht hast, guck mal nach Afterburner Link, ist von MSI und werbefrei, damit kannst du den Strombedarf deiner Karte einbremsen bei nur sehr wenig Verlust der Rechleistung. Meine 4090 läuft nur mit 60 bis maximal 65% der zulässigen 450Watt und verliert nur 8% bei den Iterationen pro Sekunde. Leise Lüfter inklusive.
1731847378158.png

Und mit HWMonitor Link, kannst du sehen, wieviel dann absolut gezogen wird. Zeigt auch andere nützliche Sachen wie deine VRAM Auslastung an und mehr.

1731847422245.png
 
Wenn du noch nicht hast, guck mal nach Afterburner Link, ist von MSI und werbefrei, damit kannst du den Strombedarf deiner Karte einbremsen bei nur sehr wenig Verlust der Rechleistung. Meine 4090 läuft nur mit 60 bis maximal 65% der zulässigen 450Watt und verliert nur 8% bei den Iterationen pro Sekunde. Leise Lüfter inklusive.
Anhang anzeigen 235280

Und mit HWMonitor Link, kannst du sehen, wieviel dann absolut gezogen wird. Zeigt auch andere nützliche Sachen wie deine VRAM Auslastung an und mehr.

Anhang anzeigen 235281

Ich hab direkt in der Nvidia App die Graka auf 75% gedrosselt, das merkt man kaum bei der Berechnung, spart aber 50Watt ein und die Karte bleibt wesentlich Kühler.

HWMonitor nutze ich auch lange, der zeigt aber ganz andere Werte unter Power an als bei Stable Diffusion unter A1111. Einer der Werte war unter A1111 immer bis zu 150Watt, was dann genau dem Verbrauch der Graka entsprechen würde. Jetzt bei Comfy ist die Verteilung der Watt dort ganz anders. Muss ich mir nochmal genau anschauen, was eigentlich die Werte genau sind.

Jetzt habe ich den HWMonitor auch mal aktualisiert, sieht jetzt ehh alles anders aus. Bei dem Strohmzähler am Stecker an dem der PC dranhängt, kommt es in etwa auf das selber aus.
 
1733347376768.jpeg

abstrakte graphik von abstrtakter graphik mit transparenten grauen bunten scherben vor transparenten leuchtenden scherben optische täuschung horror defocus optical illusion blau orange lila
 
Zuletzt bearbeitet:
abstrakte floureszierende graphik von abstrakte, gebilde neben umgeworfenen lichtschwert in transparenter scherbenkammer grün blau bleu türkis leuchtend rot orange seile optische täuschung defocus

(K v3.1)


sei nicht traurig wenn sie bei dir anders aussehen, es geht nicht mit jedem finger und man muss auch im richtigen moment klicken.

der tippfehler mit dem komma dürfte irrelevant sein da er vermutlich autokorrigiert wird.


hab unter dem letzten bild auch noch mal die prompt ergänzt.



und hier nochmal ein kleiner tipp wie es schneller geht. (nur kandinsky 3.1, die älteren sind schwieriger, nur diese webseite)


10 tabs machen und einen mouserecorder besorgen.


1733358931776.png


das schnell-klicken eine weile üben bis es sitzt und/oder das maus/keyboard script editieren um zeiten zu verkürzen oder delays ganz rauszunehmen (achtung, geht nicht mit jedem task im browser)

die erste runde manuell fertig machen bis zum download - danach nur noch das script benutzen.

script:
back button
paste
return

manuell:
captcha lösen
warten (falls nötig)
download (bei gefallen) per "graphik in neuem tab öffnen" (kontextmenu firefox) *)


*) in neuem tab öffnen geht nämlich garnicht, sondern das startet direkt den download und erzeugt dateien der marke "meine tolle prompt 01", "meine tolle prompt 02".


telegram ist zwar ohne captcha, aber langsamer und fehlerbehafteter.

das scheiß schiebedings löst man am besten, indem man nicht über die gewünschte position hinaus schiebt (und dann zurück muss), sondern indem man sich langsam annähert. wenn man die maus dabei schräg nach unten zieht (und nicht nur nach rechts) geht das dann relativ einfach.
 
Zuletzt bearbeitet:
abstrakte floureszierende graphik von abstrakte, gebilde neben umgeworfenen lichtschwert in transparenter scherbenkammer grün blau bleu türkis leuchtend rot orange seile optische täuschung defocus

(K v3.1)


sei nicht traurig wenn sie bei dir anders aussehen, es geht nicht mit jedem finger und man muss auch im richtigen moment klicken.

der tippfehler mit dem komma dürfte irrelevant sein da er vermutlich autokorrigiert wird.


hab unter dem letzten bild auch noch mal die prompt ergänzt.



und hier nochmal ein kleiner tipp wie es schneller geht. (nur kandinsky 3.1, die älteren sind schwieriger, nur diese webseite)


10 tabs machen und einen mouserecorder besorgen.


Anhang anzeigen 236976


das schnell-klicken eine weile üben bis es sitzt und/oder das maus/keyboard script editieren um zeiten zu verkürzen oder delays ganz rauszunehmen (achtung, geht nicht mit jedem task im browser)

die erste runde manuell fertig machen bis zum download - danach nur noch das script benutzen.

script:
back button
paste
return

manuell:
captcha lösen
warten (falls nötig)
download (bei gefallen) per "graphik in neuem tab öffnen" (kontextmenu firefox) *)


*) in neuem tab öffnen geht nämlich garnicht, sondern das startet direkt den download und erzeugt dateien der marke "meine tolle prompt 01", "meine tolle prompt 02".


telegram ist zwar ohne captcha, aber langsamer und fehlerbehafteter.

das scheiß schiebedings löst man am besten, indem man nicht über die gewünschte position hinaus schiebt (und dann zurück muss), sondern indem man sich langsam annähert. wenn man die maus dabei schräg nach unten zieht (und nicht nur nach rechts) geht das dann relativ einfach.
Danke, den Service kannte ich noch gar nicht, dachte du verwendest auch flux oder stable Diffusion
 


Zurück
Oben