KI Bilder mit einem Synthesizer

Ich würde es ja spannend finden, wenn die Prompts immer mit dabei stehen ...
A scene in a flemish peasant household in the 17th century. People are going about their typical business. A cat plays a keyboard with many cables. A woman is plucking a goose. A worker is busy with wood. A girl is milking a cow. Farm animals, tools, crops and food are in the background.

Copper engraving in 15th century Renaissance style. A grumpy angel, laurels in her hair, head resting on one hand, a pair of compasses in the other. A cat, a synthesizer, cables on the floor. On a wall behind her a 4x4 table with hex numbers, an hourglass, a bell. The sun and a rainbow in the back.
Ich finde es immer noch sehr interessant, dass man sehr einfach und deutlich an den falsch angeordneten schwarzen Tasten erkennt, dass es ein KI-erzeugtes Bild ist. Wann werden die KIs es lernen? Ist es sooo schwer es beizubringen? Oder hat sich einfach noch keiner die Arbeit gemacht es zu trainieren?
Ich bin nach wie vor der Meinung, es ist Absicht.
Ist es nicht, es ist ähnlich wie mit den Händen oder kleiner Schrift, es gibt da u.a. auch eine Ausflösungsgrenze. Das Bild von 1024x1024 wird intern (zumindest bei Stable Diffusion) mit 128x128 aufgelöst und erst der VAE 'guckt' sozusagen in einer Bibliothek nach, wie der Pixelbrei dekodiert wird. Wenn das nicht explizit in eine bestimmte Form 'gedrückt' (Training) wird, passieren da halt kleinere Fehler. Vielleicht ist es ja morgen mit SD3 Geschichte. Ich versuche dran zu denken, einen Synthy zu generieren und dann hier zu posten.

Bis dahin viel Spaß mit dem 'Evil Synth', hier das Bedienteil:
Und hier das Hauptgerät:
Kurze Rückmeldung, Stable Diffusion 3 ist noch nicht soweit.. Hände doof, Klaviatur doof, Text maximal mittelmäßig. Mal schauen, wann man das Ding trainieren kann.

Für den Neandertaler: ein Holzinstrument. Sehr interessant: die Kombi aus Gorilla und Säbelzahntiger rechts am Rand, sogar mit zwei Extrazähnen!


