Neueste KI zur Bilderzeugung

Arbeitet eine der KI so, dass ein Referenzpunkt gesetzt werden kann? DALL-E z.B. fängt ja quasi immer neu an.
 
was sich immerhin so ähnlich anfühlt ist ja wenn du bilder als eingabe nimmst, vereinfacht gesagt "zum lernen", und du dafür den letzten bild-output nimmst. dann ensteht eine art dialog der marke "kannst du noch was ergänzen" oder "kannst du mir was anderes machen, aber in diesem stil."
nur mit prompts weiter gehen wäre toll und ist sicherlich grundsätzlich möglich, habe ich aber noch nicht gesehen.

auch das kandinsky video app von rudalle startet bei einem bild und interpretiert es um die folgesequenzen daraus zu erstellen. leider ist das das einzige, was mit diesen video teilen geht, und nach 4 jahren wird es langsam langweilig.


die neue seite funktioniert immer noch nicht so ganz. https://rudalle.ru/
bildgröße und grundsätzliche funktion sind nach 2 wochen voller bugs aktuell wieder in betrieb, aber aufgrund der scripte ist die seite etwas langsamer wie vorher.

allerdings geht der png download via download button noch nicht. erst wenn man das vergrößerte bild erneut in einem neuen tab öffnet kann man das jpg downloaden. damit ist es im moment umständlicher als das alte.

seit gestern ist der download button auf der start page wieder weg. dort war neulich auch ein "nochmal" button, das war genial, da hast du nur 2 mal geklickt und schon hattest du eine neue version.

schön ist, dass die archivierten in der app eine weile erhalten bleiben, auf der basis von cookies, kein account notwendig.
 
nur mit prompts weiter gehen wäre toll und ist sicherlich grundsätzlich möglich, habe ich aber noch nicht gesehen.
Wenn ich dich jetzt nicht falsch verstanden habe, dann geht das doch mit Chat GPT?! Zumindest auf dem Papier - tatsächlich ist der Dialog recht oberflächlich...*

Aber etwas kann man da schon drauf aubauen. Ist also nicht 100% bei Null.

* zudem agiert DALL-E in Kombi mit Chat GTP zwar dann nicht ganz willkürlich, allerdings doch recht sprunghaft und auch gern mit Fehlern.

M: Zeichne ein Winterlandschaft
D: Alles klar
M: Setze den See weiter rechts in das Bild
D: >Ändert nicht die Position des Sees sondern setzt "deformierte" Tiere ein
M: Neuer Versuch - ohne Tiere!
D: Tiere wurden entfernt und der See weiter rechts im platziert
M: schön wäre es...

Hatte die Thematik bisher nur etwas verfolgt, aber bis vor kurzem nicht genutzt.

Im moment bin ich quasi an dem zweiten Bild dran.

Achso, schade ist halt bei Chat GPT, dass man nur ne begrenzte Anzahl an Versuchen hat (alle 24h). Mir scheint aber auch das dort die Prompts strikter umgesetzt werden, wie bei rudalle. Und bei Rudalle kann man auch Bilder hochladen?

Etwas seltsam finde ich es, dass da noch immer viel Frankenstein auf Acid rauskommt. Falsches Futter?
 
ja ja, das mit dem "dialog zur korrektur" kommt so langsam. aber ich sehe da keine großartige anwendung dafür. dann lieber gleich die methodik in touch designer & co selbst basteln.

sprache versteht unser kostenloser russischer freund nicht ganz so gut wie chatgpt pro. vor allem solche anweisung wie "..., und links davon noch ein größeres" o.ä. laufen meist ins leere
mich persönlich störts nicht, muss man halt seine sprache ans programm adaptieren.
 
Mehr Kontrolle fänd ich halt schon gut. Immerhin kann man bei chat gpt den Prompt so etwas verfeinern. Geht dann aber auch gern mal sprunghaft in die falsche Richtung.
 
Es gibt eine recht erhellende Erkenntnis über KI Bilder ( oder KI allgemein ) anhand eines konkretens Beispiels:

Wenn du eine KI einfach nur nach "Hund" fragst, kommt überwiegend irgendwas zwischen Schäferhund, Golden Retriever und Labrador heraus.
Landen jetzt überweigend generierte KI-Schäferhunde und KI-Golden Retrievers wieder im Netz, wird dieses verhalten noch verstärkt und die Chance auf den prompt "Hund" einen Schäferhund oder Golden Retriever zu erhalten steigt.

Eben das gleiche passiert mit falschen Informationen.... je mehr das Netz mit einer bestimmten falschen Information geflutet wird, desto eher wird die KI diese als Antwort geben.
Oder wie jemand mal vor langer Zeit gesagt hat: Wie bei der katholischen Kirche: ständige Wiederholung führt zum Glauben.


Ein Chatbot verifiziert nicht die Wahrheit einer Aussage, sondern nur wie oft diese Aussage als wahr im Netz ( oder besser: den Trainingsdaten ) vorkommt.
Mit den Heerscharen von Schwurblern und Bots die das Internet mit Müll fluten kann das einfach so nichts werden.
Ein Chatbot hat keinen "Blasen" Algoritmus, sprich er versucht nicht eine auf den Fragesteller zugeschnittene Antwort zu geben sondern "die richtige", die er eben aus der Häufigkeit der vorhandenen Informationen erstellt.
Das bedeutet aber auch, dass bei genug falschen Informationen ein Chatbot auch einem "normalen" Menschen eine Antwort geben kann die normalerweie in einer Schwurblerblase versteckt wäre.
 
Zuletzt bearbeitet:
Arbeitet eine der KI so, dass ein Referenzpunkt gesetzt werden kann? DALL-E z.B. fängt ja quasi immer neu an.

ach apropos.

in der theorie geht das so halb mit gemini.

1744399626053.png
1744399553668.png

ich benutze es hin und wieder um collagenmaterial zu produzieren - seit es 2000 pixel kann.

automatisierte massenabfragen via mouserecording sind damit auch prima zu realisieren, weil es keinen captcha scheiß hat sondern sich darauf verlässt, dass dein google account einem menschen gehört.

allerdings ist das nicht mit der lokalen generation oder kommerziellen angeboten zu vergleichen, denn wie du siehst, wird nicht das bild als ausgangsmaterial benutzt, sondern nur der prompt ergänzt, und dann von vorne angefangen.

lokale bildgeneratoren kommen inzwischen mit frontends, bei denen man eine art rudimentäre "bildbearbeitung" hat und z.b. einen bereich auswählen kann, in dem man etwas verändert oder ergänzt, oder 3 bilder miteinander morphen kann.
wer´s komplette "pro" haben will braucht weiterhin touchdesigner.

*)
mit redpanda habe ich derzeit das umgekehrte problem: das verändert seeds beim wiederholten abfragen nur leicht oder garnicht. selbst mit minimalen veränderungen am prompt (text3, text4, text5) kommt oft immer wieder das gleiche zeugs raus. ich brauche aber "ähnliches" und nicht gleich oder anders.



rudalle ist wieder ordentlich schnell und sie seite gut zu handeln. der direktdownload geht allerdings immer noch nicht, weil jetzt die dateiendung im script fehlt. irgendwo können die sich immer noch nicht entscheiden ob sie nun auf png umsteigen wollen oder nicht. :)
 
Zuletzt bearbeitet:
ich versuche gemini gerade beizubringen, selbst erfundene variationen zu von mir eingegeben prompts zu benutzen, um direkt ein solches bild zu generieren.


1744402108085.png
1744402198881.png
1744402232575.png

kopf -> tisch.

1744401912164.png

nach dem dritten versuch schien er verstanden zu haben, was ich von ihm will - aber verarscht mit dann mit einen stock bild von freepik.^^
 


Zurück
Oben