Neueste KI zur Bilderzeugung

Kann jemand von euch ein Bild generieren lassen, wo eine Person unterm Flügel sitzt?

Mir ist nur eins gelungen. Wohl eher durch Zufall.

1707720310977.png
 
Kann jemand von euch ein Bild generieren lassen, wo eine Person unterm Flügel sitzt?

Mir ist nur eins gelungen. Wohl eher durch Zufall.

Anhang anzeigen 205005

Ist tatsächlich schwierig. Generell ist es für die KI schwierig, 2 verschiedene Sachen auf einem Bild zu zeigen. Wenn man 2 Tiere haben möchte, werden schon gerne die Eigenschaften vermischt oder eine Person auf einem Pferd oder Motorrad wird mit diesen zusammen geglitched. Daher kann man beide Sachen schwer beschreiben.

Dazu kommt ja, das bei den ganzen Trainingsfotos die Person entweder am Piano sitzt oder vielleicht noch als Frau in einem schönen Kleid auf dem Piano liegt aber so gut wie nie darunter.

Ich hab es eben auf die schnelle mit Stable Diffusion nicht hinbekommen. Selbst negative prompts wie "in front of a piano" schließen nicht aus, dass die Frau doch vor dem Piano sitzt und nicht darunter. Und auch sowas wie "sitting on the floor" oder "sitting on the ground" lässt die Person nur vor dem Piano auf dem Boden sitzen.
 
Kann jemand von euch ein Bild generieren lassen, wo eine Person unterm Flügel sitzt?

Mir ist nur eins gelungen. Wohl eher durch Zufall.

Kann @ollo da nur bestätigen .. scheint nahezu ein Ding der Unmöglichkeit.
Hier mal ein paar Versuche die Intelenz auf die schnelle (mit 12 Boosts) auszutricksen .. aber sie ist einfach zu schlau für mich..

Piano besonders hoch ....mal nachhelfen:

OIG4.Iit8zYGdJ.jpgOIG4lkjzgkj.jpgOIG64864.jpg


Boden besonders tief:

OIGcjj3.jpg


Person besonders klein, beinahe:

OIG2.I8.jpg


Person besonders flach, aha, schon eher:

OIG2dhhdhd.jpgOIGdhhdhd2.jpgOIGdhd2.jpg


ok, ich gebe auf:

OIGfff2.jpg


Glückwunsch @ganje zum schönen Zufallstreffer.
 
Und wieder einmal hat der Zensur-Möpp zugeschlagen:

1708149097633.png

...während eine einzelne in sich verknotete Brille noch klaglos generiert wird:

eine in sich verknotete Brille-1.jpeg

Man könnte ja befürchten, dass gleich zwei (oder gar mehr... hach Gottchen) ineinander verknotete Brillen gerade Sex miteinander haben. Wo bekämen wir denn da hin? Das wäre ja Erregung öffentlichen Ärgernisses...

B.T.W.: Ich bin von der Forensoftware wieder einmal eine Woche lang nicht über neue Posts (diesmal diesen Thread betreffend) informiert worden. Man könnte ja glatt auf die Idee kommen, dass Programmierer ihr Handwerk im Grunde genommen nicht verstehen...

(...sondern nur 'rumprobieren bissetirjentwieleuft.) ;-)
 
Zweiter Versuch:
1708150154167.png

Jetzt werden aus den Brillen Gläser (klar: Berülle auf Englisch = Glasses; Plural, weil ja zwei Gläser=Linsen im Jestell drin stecken)

Aber himmelherrgottzackramentnochmal, wenn die K.I. wirklich intelligent wäre, müsste sie diese Mehrdeutigkeiten bei zwischengeschalteter Übersetzung erkennen und bedenken (denken? ischlaachmischkapott...).

Noch ein Fehler: plötzlich sind die Dinger nicht mehr ineinander verknotet, sondern miteinander über ein kitschiges Schleifchen verbunden. Selbst ein noch so doofer, schielender Glasbläser würde sofort wissen, dass man die Gläser über deren Stiele ineinander verknoten könnte, die K.I. anscheinend nicht.

Wo ist mein Betablocker?
 
Zweiter Versuch:


Jetzt werden aus den Brillen Gläser (klar: Berülle auf Englisch = Glasses; Plural, weil ja zwei Gläser=Linsen im Jestell drin stecken)

Aber himmelherrgottzackramentnochmal, wenn die K.I. wirklich intelligent wäre, müsste sie diese Mehrdeutigkeiten bei zwischengeschalteter Übersetzung erkennen und bedenken (denken? ischlaachmischkapott...).

Noch ein Fehler: plötzlich sind die Dinger nicht mehr ineinander verknotet, sondern miteinander über ein kitschiges Schleifchen verbunden. Selbst ein noch so doofer, schielender Glasbläser würde sofort wissen, dass man die Gläser über deren Stiele ineinander verknoten könnte, die K.I. anscheinend nicht.

Wo ist mein Betablocker?

Das ist in der Tat nicht befriedigend zu lösen. Zunächst ist die Brille "glasses" ja im englischen synonym mit den (Trink)Gläsern. Das gibt dann die Ergebnisse oben. Abhilfe schafft für die Differenzierung das englische Synonym "pair of glasses" oder "spectacles".

Dann gibt es aus meiner Sicht als Training für die KI schlichtweg keine Bilder bei deinen zwei Brillen miteinander verknotet wären.
Mein bestes Ergebnis:

_0423f2c5-7c34-424d-9bc5-17f2729408fe.jpeg

Bestes "Hochzeitsbild" :cool:

OIG3.jpg



Grüße aus München!
 
Interessant. Bei Stable Diffusion, zumindest in dem Model was ich genutzt habe, werden automatisch die passenden Menschen dazu generiert. Ein Paar sind dann halt oft zwei Menschen, die Brillen tragen.

Oder eben Gläser. Man kann das ganze umgehen, indem man bestimme Brillentypen nimmt, also Sunglasses zB, die sind dann eindeutig. Allerdings sah das bei mir auch nicht wirklich gut aus, sind oft auch nur einzelne Sonnenbrillen.

00009-2732276427.png00014-1809936430.png
 
bei einer recherche habe ich sf-serientitel entdeckt, die in einer liste für bandnamen ganz weit oben stehen dürften:
  • Captain Video and His Video Rangers
  • The Purple Monster Strikes
  • Atom Squad
  • Birdman and the Galaxy Trio
  • Captain Z-Ro (& The)
  • Radar Men from the Moon
falls nicht selbst schon getestet - hier mal was BIC dazu meint bzw damit anstellt (jeweils ohne Zusätze, also rein nur die Titel als Prompt und nur ein Boost/Versuch pro Titel) :


Captain Video and His Video Rangers

OIG4._y6t2aO5Ca9PV.jpgOIG4fff.jpgOIGddff4.jpgOIGdd4.jpg



The Purple Monster Strikes

OIGdggggd3.jpg OIG3.cu3sYxQ0HyJhf.jpg
..ähem.. belassen wir es hier mal bei 2 von 4 Ergebnissen



Atom Squad
OIGd4.jpg OIfffG4.jpg
..ähem2.. belassen wir es hier mal bei 2 von 4 Ergebnissen



Birdman and the Galaxy Trio

OIGfff4.jpgOIG4.DF0.jpgOIG4.mLCLXZ6Pzy5qVi7iu9.jpgOIG4.8uFcvZd.jpg



Captain Z-Ro

OIG2.1ze_CngZ.jpgOIGsggs2.jpgOIGsshsh2.jpgOIGdhdhd2.jpg



Radar Men from the Moon

OIG2ggsg.jpgOIG2sggs.jpgOIG2sgsggsg.jpgOIG2.G0p2xBZlgPRcC.jpg


✌️😎
 
Das mykologische Fachwissen der künstlichen "Intelligenz" ist indes noch sehr ausbaufähig:

Statt Puppen tanzen zu lassen, hab' ich es mal mit Pilzen versucht. Die jeweilig dargestellte Species ist dem Prompt (=Dateinamen) zu entnehmen. Das Entdecken der von der K.I. eingebauten morphologischen Fehler überlasse ich Euch... ;-)

Eine Morchella conica turnt am Boden-1.jpegEine Hygrophoropsis aurantiaca turnt am Boden-4.jpegEine Hygrophoropsis aurantiaca turnt am Boden-1.jpegEin Boletus edulis turnt am Boden-2.jpegEin Cantharellus cibarius turnt am Boden-7.jpeg

Den Pfifferling - oder das, was einen Pfifferling* beim Bodenturnen darstellen sollte - hat die K.I. in acht (!) Versuchen kein einziges Mal in der gewünschten Tätigkeit dargestellt, obwohl es bei anderen Pilz-Species ging.

Seltsam.


PS: *Die Erkennungsmerkmale wurden von der K.I. in keinster Weise korrekt umgesetzt. Allenfalls Färbung und Habitat sind korrekt...
 
Zuletzt bearbeitet:
Den Pfifferling - oder das, was einen Pfifferling* beim Bodenturnen darstellen sollte - hat die K.I. in acht (!) Versuchen kein einziges Mal in der gewünschten Tätigkeit dargestellt, obwohl es bei anderen Pilz-Species ging.

Seltsam.
Na immerhin hat dein Pfifferling ein Ballettröckchen an - das ist doch schon ein Anfang. 💃🕺
 
Spiele seit 24h mit Stable Cascade (Nachfolger von Stable Diffusion) rum.
Durch die Aufteilung in mehrere Stufen hat man weniger VRAM Verbrauch, es sind höhere Auflösungen möglich bis es zu Doppelungen kommt, eine schnellere Generation da intern (latent space) nur noch mit 24x24 gerechnet wird (Stable Diffusion 1.5 hatte 64x64 und SDXL 128x128). Allerdings bleiben meiner Meinung nach feine Details auf der Strecke. Wobei, Hände gehen nun recht gut, in 1 von 6 Fällen bekomme ich Hände mit der richtigen Anzahl Finger :)

1708601170051.png

Runterskaliert von 6k Breite:
ComfyUI_00186_.pngComfyUI_00180_.pngComfyUI_00187_.png

Normale Auflösung:
1708600754532.png1708600795200.png

Wenn man in das letzte Bild hineinzoomt, bleibt nicht viel vom Gesamteindruck übrig. Ich hoffe, es liegt an der Preview Version.
 
Hallo zusammen.
Ich wollte mich nur mal bei euch bedanken. Lese hier fleißig mit und habe einige nützliche Tipps gelernt.
Ja man könnte sich bei den Kopfhörern fragen wie das geht, aber egal.

Hase_3.jpg
 
Bei den folgenden Bilder habe ich mal 4 von den selber trainierten Elementen zusammengefügt. Der Stil entsteht bzw. variiert durch leicht unterschiedliche Gewichtung. Es wurde natürlich keinerlei Künstlername benutzt:
- Tusche/Aquarell: 7 synthetische Bilder
- Sci-Fi: rund 800 Bilder
- Rauch/Dissolver: 20 synthetische Bilder
- Detailer auf Noisebasis: 42 synthetische Bilder

Ebenso wurde etwas postprocessing gleich in ComfyUI mit-automatisiert. Ein Bild benötigt rund 70 Sekunden auf einer 4090 wenn man den Prompt einmal gefunden hat. Alle Bilder basieren auf Stable Diffusion SDXL und wurden lokal gerechnet. Der ganze Workflow umfasst rund 60 Module. Die Gesamtrechenzeit für die 4 Themen waren unter 20h, das wird aber nur einmal gemacht.

1709815040105.png1709815247437.png1709815394178.png1709815493008.png1709815554835.png
1709815608943.png1709815713422.png1709815777732.png1709815848026.png1709815951740.png
1709816228360.png1709816279426.png1709816363639.png1709816438954.png
1709816659089.png1709816790039.png1709816861976.png1709816968759.png1709817039551.png1709817118732.png

Nun würde ich das ganze gerne direkt in ein eigenes Basis-Modell gießen und wäre dann tatsächlich (erstmal) fertig :D
 
Zuletzt bearbeitet:


Zurück
Oben