Neueste KI zur Bilderzeugung

Gute Vorschläge, aber mein Prompt lautete:

"Schubiduh und Schabadah spielen gemeinsam Schach an einem Tisch, der aus verrosteten Salzheringen gedengelt wurde."


ich hätte geraten, dass du "verrostete heringe" zwar bestellt hattest, dabei aber eher an den aufbau von zelten als an fische gedacht hast.

dass eine KI "gedengelt" nicht versteht hätte ich dir sagen können. und dann passiert, was da immer passiert: wenn man gedenkgelt nicht versteht, dann macht der satz so keinen sinn mehr, und dann wird aus dem "aus" ein "auf" - und das ist das, was man da sieht. tisch auf heringen.

manchmal sind die überraschungen aber noch größer, so dass man gar nicht mehr versteht, was da passiert ist.

"brustwarze" wird übrigens bei dall-e.ru grundsätzlich zu einem apfel, auch im zusammenhang mit männern oder hunden.
 
Bei dem doch recht absurden Prompt würde ich mich erstmal auf den Tisch konzentrieren und schauen, ob die KI überhaupt weiß, was ein rostiger Hering ist.

ich mache es zwar selbst oft so, aber genau das funktioniert selten.

denn je mehr andere begriffe noch dazu kommen, desto geringer wird die gewichtung der ersten worte, und dann verschwindet einer davon plötzlich oder das "rostig" wird einfach einem anderen objekt zugeordnet. oder es wird zu einer rose...

Da wird doch deutlich, dass die KI grammatikalische Zusammenhänge überhaupt nicht kapiert und einfach die im Prompt vorkommenden Substantive, Verben, Adjektive usw. aufgreift und daraus irgendetwas "komponiert", also im wortwörtlichsten Sinn zusammenfügt, ohne dabei auf semantische Korrektheit zu achten.

wie gesagt, das wäre auch kaum in reinkultur trainierbar.

ich finde genau das daran inspirierend und benutze inzwischen weder punkte noch kommas um grammatische strukturen herzustellen, sondern reihe einfach objekte, zustände, oder beschreibungen von oberflächenstrukturen aneinander und ergänze sie mit farb- und form-wünschen und adjektiven.

natürlich funktionieren dinge wie "im stile von picasso" oder "vor grauem himmel" meistens so wie man denkt, aber nicht deswegen, weil das genauso interpretiert werden würde wie bei seinem chatbot bruder.
 
Zuletzt bearbeitet:
Das Problem ist, dass hier viele verschiedene Sachen dargestellt werden sollen. "A table made of rusty fish" alleine geht irgendwie. Aber dazu noch "2 guys playing chess" schließt sich anscheinend aus. Denn ein Tisch an dem Schach gespielt wird, besteht fast immer aus Holz.

Genauso wie eine Schildkröte die auf einem Pferd reiten soll. Da kommt dann eher ein Mischwesen bei raus oder beide Tiere haben Merkmale des jeweils anderen, auch wenn man die Tiere sehr genau beschreibt.
 
Schlicht und einfach Zensur.

das hat mit zensur überhaupt nichts zu tun.

schön wärs, wenn der russische staat wenigstens mal kindesmissbrauch verfolgen würde.

Es gibt da schon sowas wie eine 'Syntax'. Hier mal mein persönliches Surfing-Prompt wenn ich einfach nur schöne Bilder zum Anschauen will:

bright, {__shotsizes__| }

das mag bei dem funktionieren was du nutzt, aber nicht bei dem, um was es hier ursprünglich ging.

und ich würde sowieso vermuten, dass das nur eine zusätzlich funktion der weboberfläche ist, oder?

und sowas ist in doch 5 minuten selbst gemacht.


aber das ist das was ich neulich damit meinte, dass leider jedes wieder ganz anders funktioniert.

auch für meinen anwendgunszewck wird es früher oder später wohl darauf hinauslaufen, dass ich die dinge eher lokal mache, um den standardproblemen der onlineangebote (komprimierung, größenlimit) aus dem weg zu gehen.

aktuell gefällt mir die idee, dass eine russische bank die kosten für etwas übernimmt, was mir nützt.

man kann durchaus zielgerichtet Ergebnisse erzielen

ja, klar, wenn auch meist anders als gedacht. ich habe oft eine recht konkrete vorstellung davon, was ich für material rausbekommen möchte und mit der zeit kennt man immer mehr kniffe, wie man das gegenüber dazu bekommt, das auch abzuliefern.

ist aber, wie vieles andere auch, nicht ohne Weiteres und sofort machbar. Bei den lokal installierten Sachen gibt es mittlerweile mehr Addons als man sich vorstellen kann. Ganz nützlich sind regionale Prompts, damit kann man den Mond auch nach unten links ins Bild setzen. Oder Farbkorrekturen im Render Prozess.. oder die 3d Tiefeninformation mit rausziehen um ein 3D Modell zu erzeugen. Und jeden Tag kommt Neues hinzu.

vor allem wäre ein alphakanal mal was.

und was ich persönlich ebenfalls gut gebrauchen könnte wäre zugriff auf das oder die seed values, so dass man regelmäßig größere serien von sehr ähnlichen bildern erstellen kann. wenn sehr ähnliche nur ab und zu durch zufall entstehen, so wie zur zeit, stört mich das eher bei dem, was ich damit mache.

es gibt jetzt im jahr 5 nach KI also neben kursanalyse auch sprache, bild, video und audio, wobei die reine generation von musik noch in den kinderschuhen steckt.

ist dir schon mal was mit vectorgraphiken begegnet? das wäre sensationell.
 
Ich kenne es nur mit Seed ;-). Ich nehme an, du kannst auch coden da habe ich keine Erfahrung.

es geht mir immer noch nur um das russische kandisky 2.2., und bei online services kannst du leider nur mit seeds arbeiten wenn das dort so angeboten wird.

lokal geht eh immer alles irgendwie. mit mehr oder weniger aufwand. zur zeit rechtfertigt sich ein weiterer rechner dafür nicht. :)

das far future ziel für audio und bild wäre eh, dass man leichter-als-heute-bedienbare tools hätte, mit denen man selbst modelle entwickeln und sie nach belieben trainieren kann. dabei wäre dann vor allem spracheingabe nicht mal ansatzweiose so wichtig wie andere formen token zu erzeugen. (audio to audio?)

wenn ich mir die beispiele in openAI universe anschaue, dann verstehe ich da aktuell noch mehr nicht als nur die verwendeten programmiersprachen. für letzteres habe ich wzar jemanden, aber bevor man nicht weiß, was eigentlich gemacht werden soll...
 
Für Leonardo (und wahrscheinlich für viele andere Anbieter) gibt es Anleitungen, welche Worte/Prompts noch funktionieren. Leonardo errechnet aus dem Prompt einen Score ob die Ausgabe den Richtlinien entspricht oder nicht. Wer es am Beispiel Leonardo genau wissen will, hier entlang (englischer Text): https://docs.leonardo.ai/docs/handle-not-safe-for-work-image-generation-nsfw und hier (auch Englisch): https://aioptimistic.com/leonardo-ai-content-moderation-filter/

Irgendwann schien die Blacklist mal ausgefallen zu sein, weil haufenweise nackte Frauen generiert wurden, weil der prompt "nude" offensichtlich nicht gefiltert wurde. Hatte mich echt gewundert, was da los ist
 
das kann ich dir erklären: das passiert NUR, wenn man ihn dauernd eingibt. (z.b. in der hoffnung, dass es irgendwann doch mal funktioniert.)

Das ist gar nicht nötig. Wenn man nichts Besseres zu tun hat, als nackte Menschen zu generieren, kann man einfach "undressed" als Prompt eingeben, weshalb auch immer, das funktioniert.

Zu den Anfangszeiten habe ich mal ausprobiert, wie weit man bei den Bildergeneratoren gehen kann. Bing kriegt schon die Krise, wenn man einfach nur Bikini eingibt oder von einer Frau den "full body" anstatt dem Gesicht haben möchte. Einfach nur eine Beschreibung, dass man die ganze Person sehen will ging schon zu weit, keine Ahnung ob das immer noch so ist, Bing habe ich länger nicht genutzt. Brutale Bilder waren USA-typisch kein Problem, ein Bikini wie gesagt schon zu viel. Naja und bei Leonardo gab es NSFW Bilder von anderen Leuten aber eben diverse Blacklist-Wörter bzw Zusammenhänge und dann habe ich halt etwas rumgetestet und war überrascht, dass "under the shower" wirklich nackte Menschen ausspuckt, was ich so von anderen KIs nicht gewohnt war.

Das hat auch gar nichts mit der Nacktheit zu tun, ich wollte einfach wissen, was damit so geht. Ich bin zB auch jemand, der bei Computerspielen probiert, hinter die Levelgrenzen zu kommen, einfach nur, weil es mir Spaß macht, das auszutüfteln.
 
kandinsky 3.0 versteht mich irgendwie nicht. es ist fast so, als ob es nur russisch könnte.


ein stapel dünne rosa stahlplatten in der braunen wüste (kandinsky 2.2)

1700971097858.png

ein stapel dünne rosa stahlplatten in der braunen wüste (kandinsky 3.0)

1700971185736.png

drei dünne grüne stahlplatten in der arktis (kandinsky 2.2)

1700971362388.png

drei dünne grüne stahlplatten in der arktis (kandinsky 3.0)

1700971475122.png

eisberg im meer (kandinsky 2.2)

1700971836855.png

eisberg im meer (kandinsky 3.0)

1700971858333.png
 
Zuletzt bearbeitet:
wenn das dritte nicht wäre, hätte ich vermutet, dass da zu viele Petrischalen in den Trainingsdaten waren ...
 
Hier mal ein Bild von einer modernen grafischen Benutzeroberfläche. Ist wie Musik patchen :)

Anhang anzeigen 191873

so ungefähr stelle ich mir das vor, vor allem da man dort erst bilder generieren und diese dann direkt wieder weiterverarbeiten kann, weil man einfach mehrere verschiedene KI prozesse in einem prozess hat.

aber letztlich würde ich eher versuchen das in meinen bestehenden umgebungen irgendwie zu integrieren, denn ich habe einen eigenen modularen videosequenzer - pixxtures - der 18 jahre alt ist, also aus einer zeit stammt, als es das sonst noch nirgends gab.


1701524684895.png


aber leider muss ich auch dazu dann doch wohl erst mal alles darüber verstehen wie man in comfy mit dem KI zeug arbeitet, oder mit anderen worten: dort drin mal alles ausprobieren, was es so gibt.

über automator oder die tcsh shell dürfte man das ding eher nicht fernsteuern können, von midi oder OSC ganz zu schweigen...

das wird noch eine weile dauern, aber es steht auf der to do list. darf ich dich kontaktieren wenn es losgeht?
 
Jetzt wird's bizarr. Die KI sollte ein "abgestürztes Model mit Katzengesicht auf einem fremden, dunklen Planeten" generieren:
1702813356180.png
1702813391591.png
1702813417104.png
1702813444122.png
...womit wir wieder bei der Semantik wären.

Unter einem "abgestürzten" Model würde ich eher eine junge Dame im überalkoholisierten Zustand verstehen. ;-)
 
Gibt es bestimmt was, aber Echtzeit ist noch nicht drin. Habe die Tage SDXL Turbo gesehen, das ist schon nahe dran, aber nicht selbst probiert.

habe nach einem ersten kurzen blick - bevor ich das morgen dann mal richtig probiere - feststellen müssen, dass comfy UI für meine zwecke an den gleichen mangeln krankt wie touch designer.

wobei man vermutlich das meiste was im bereich "vollautomatsierung" fehlt durch einen mouserecorder ersetzen können wird.
 
Wenn ich diesen Prompt "Erzeuge ein Bild, auf dem das abgestürzte Raumschiff Nostromo zu sehen ist!"

"erzeuge" wird zu "erzengel", "bild" verursacht mehr gemälde als fotographie, "zu sehen" wird unter umständen als "zusehen" oder "zu sehr" interpretiert.

den erzengel und das bild sehe ich ganz deutlich. und der erzengel steht auch "auf" irgendwas, genau wie verlangt.
 


News

Zurück
Oben