Neueste KI zur Bilderzeugung

Wer als erster den Prompt errät, hat gewonnen... ;-)

das erwarte ich gar nicht mehr, dass das so funktioniert.

wenn man so denkt, übersieht man, dass das sprachmodell nicht mal die halbe miete ist.

bei der erstellung von prompts überlege ich mir immer zuerst welche begriffe und sätze das, was ich haben will, wohl bei einer google bilder suche benötigt würden um ein entsprechendes ergebnis zu bekommen - da ich vermutlich zurecht davon ausgehe, das die mehrheit der materials in den modellen aus dem web gescraped wurden und der html text in der nähe des bildes dabei mit berücksichtigt wird, als das denn klickarbeiter in fernost bilder verschlagworten und beschreiben.


beispiel:


man versucht ein gemälde von einem apfel neben einer birne zu erhalten und gibt "gemälde von einem apfel neben einer birne" ein.

sehr häufig erhält man nun als antwort fotos von 2 bildern nebeneinander, die wahlweise nur äpfel oder nur mangoananas zeigen.

warum? nun, ich vermute, dass es einfach sehr wenige bilder im netz gibt, die erstens überhaupt äpfel zeigen und zweitens auch nur sehr wenige webseiten, auf denen unter einem bild steht "dies ist ein bild, auf dem A neben B" zu sehen ist.


sehr häufig erhält man bei solcher verwendung von "A neben B" oder "A über B" auch eine antwort, die einfach in der mitte mit einem geraden strich geteilt ist und wieder 2 verschiedene dinge zeigt, die man als mensch natürlich als 2 unterschiedliche bilder rezipiert und interpretiert.

warum? nun, das gleiche spiel, es gibt einfach unheimlich viele solcher bilddateien im netz, die auch so aufgebaut sind. will sagen: sehr viel häufiger als andere, bei denen auch "A neben B" assoziiert ist.


außerdem scheint schon die sprach-interpretation anders zu sein als in chatbots - zumindesten was unsere wahrnehmung davon angeht.

in einem openAI basierten chatbot hast du die prompt (das ist das token) und nachdem der bot geantwortet hat, sendest du das nächste token. schon die erste antwort des bots befindet sich aber auf einer ganz anderen ebene, die man technisch den kontext nennt (nicht mit dem zu verwechseln, was man normalweise darunter versteht)

in einem chatbot ist der kontext die untere ebene und der wird von den token nur getriggert - und die komplexität des tokens bestimmt die größe des kontexts.

beispiel:

user:
kannst du mir eine zahl nennen?

bot:
17 ist z.b. eine zahl.
sie ist sehr schön, man kann sie mit einem stift auf papier schreiben.

user: noch eine?

bot:
29 ist z.b. eine zahl, genau wie 17 eine zahl ist.
sie ist sehr schön, man kann sie mit einem stift auf papier schreiben.



jetzt im vergleich dazu ein kleineres token, was zunächst zur gleichen antwort führen könnte:

user:
17

bot:
17 ist eine zahl.
sie ist sehr schön, man kann sie mit einem stift auf papier schreiben.

user: noch eine?

bot:
"noch eine" ist teil der deutschen sprache. die formulierung wird vor allem in bayern verwendet. ansonsten kann ich hier leider nicht weiterhelfen, denn ich bin nur ein spielzeug und du bist hier das produkt.



der bot hatte keine chance zu verstehen, dass wir noch eine zahl haben wollten, weil schon im ersten token von zahlen niemand etwas gesagt hat. "noch eine 17" hat er zwar verstanden, aber es schien ihm naheliegender zu sein zu reproduzieren, was bei wikipedia über das wort "noch" steht.


von einem bildgenerator hingegen erwartet man ja eigentlich überhaupt nicht, dass er uns beispielhaft eine 17 malt, wenn ihn fragen, ob er eine zahl kennt. hier ist der kontext, der in den modellen enthalten ist, schon überhaupt keine sprache mehr, die sich auf die eingabe beziehen würde.

deswegen ergeben dort auch sehr ähnliche token oft komplett andere antworten, während es bei chatbots genau umgekehrt ist.

wenn du in dalli ruski gemälde graphik retro rotes haus unter dreidimensionalem laser im sturm eingibst und dann nur das "rot" in "grün" änderst oder auch nur noch "17" dahinterschreibst, erhälst du als antwort schon etwas vollkommen anderes, z.b. ein aquarell von einem haus im sturm aber ohne laser statt einem foto von einem laser in einem haus aber ohne sturm.


du kannst es also bei diesem (nicht bei allen) bildgenrator komplett vergessen, einfach englisch oder deutsch mit ihm zu kommunizieren. stattdessen musst du versuchen, dich seinem kontext und seinen modellen anzunähern.
 
Zuletzt bearbeitet:
Gute Vorschläge, aber mein Prompt lautete:

"Schubiduh und Schabadah spielen gemeinsam Schach an einem Tisch, der aus verrosteten Salzheringen gedengelt wurde."

Es ist zwar irgendwie umgesetzt, wobei die schachspielenden Fantasiefiguren ja noch am ehesten dem Prompt entsprechen, aber der Rost sollte sich eigentlich ausschließlich auf den Salzheringen abspielen, aus denen der Tisch gedengelt sein sollte. Es hätte also ein aus plattgehauenen, rostigen Salzheringen bestehender Tisch (zumindest die Tischplatte) zu sehen sein müssen. Stattdessen friemelt die KI den Rost an die Wände oder an die Figuren.

Da wird doch deutlich, dass die KI grammatikalische Zusammenhänge überhaupt nicht kapiert und einfach die im Prompt vorkommenden Substantive, Verben, Adjektive usw. aufgreift und daraus irgendetwas "komponiert", also im wortwörtlichsten Sinn zusammenfügt, ohne dabei auf semantische Korrektheit zu achten.

Aber vielleicht ist es genau diese Unzulänglichkeit, die diese teils absurden, teils lustigen Ergebnisse generiert.

Schön wäre es, wenn man die Umsetzung tiefergehend - was korrekte Semantik angeht - parametrieren könnte...
 
Die kommerziellen Angebote zur Generierung die ich bisher gesehen habe, sind alle auf die eine oder andere Art beschränkt. Die unterschiedlichen Bilder entstehen trotz gleichem Prompt weil im Hintergrund eine Zufallszahl bei jedem Bild neu gesetzt wird. Das wird nicht überall als sichtbarer Parameter angeboten.
Schubiduh und Schabadah spielen gemeinsam Schach an einem Tisch, der aus verrosteten Salzheringen gedengelt wurde
Bei dem doch recht absurden Prompt würde ich mich erstmal auf den Tisch konzentrieren und schauen, ob die KI überhaupt weiß, was ein rostiger Hering ist. Wenn das gegeben ist, kann man dann ein Objekt daraus bauen. Anschließend kommen die Schachspieler dazu.

Image3.jpg

Image2.jpg
Image1.jpg

Was es dann zu Bedenken gibt, ist, das es wahrscheinlich enorm viele Bilder gibt auf denen Schachspieler an einem Tisch sitzen. Jetzt kommt die Gewichtung in Spiel. Je nach Anbieter kann man zum Beispiel Klammern setzen und einem Teil des Prompts eine höhere oder niedrigere Priorität oder Gewicht einräumen.

Falls das nicht klappt, kann man das gewünschte Bild in mehreren Stufen erstellen, daß heißt, man markiert im entstandenen Bild den Bereich, der nicht passt und lässt den von der KI neu berechnen, unter Umständen mit einem neuen Prompt. Das nennt sich 'Inpainting'. Damit kann man dann auch einen Apfel ganz einfach neben einer Birne platzieren.

Mit den richtigen Tools ist schon sehr sehr viel möglich und ich empfehle jedem, der sich etwas dafür interessiert, ein Programm dafür lokal zu installieren, es gibt einige sogenante Oneclickinstaller. Auf dem PC geht es ab einer 1070 ti los (6 Jahre alte Karte), bzw. man sollte mindestens 8GB Speicher auf der Grafikkarte haben.
 
Gute Vorschläge, aber mein Prompt lautete:

"Schubiduh und Schabadah spielen gemeinsam Schach an einem Tisch, der aus verrosteten Salzheringen gedengelt wurde."


ich hätte geraten, dass du "verrostete heringe" zwar bestellt hattest, dabei aber eher an den aufbau von zelten als an fische gedacht hast.

dass eine KI "gedengelt" nicht versteht hätte ich dir sagen können. und dann passiert, was da immer passiert: wenn man gedenkgelt nicht versteht, dann macht der satz so keinen sinn mehr, und dann wird aus dem "aus" ein "auf" - und das ist das, was man da sieht. tisch auf heringen.

manchmal sind die überraschungen aber noch größer, so dass man gar nicht mehr versteht, was da passiert ist.

"brustwarze" wird übrigens bei dall-e.ru grundsätzlich zu einem apfel, auch im zusammenhang mit männern oder hunden.
 
Bei dem doch recht absurden Prompt würde ich mich erstmal auf den Tisch konzentrieren und schauen, ob die KI überhaupt weiß, was ein rostiger Hering ist.

ich mache es zwar selbst oft so, aber genau das funktioniert selten.

denn je mehr andere begriffe noch dazu kommen, desto geringer wird die gewichtung der ersten worte, und dann verschwindet einer davon plötzlich oder das "rostig" wird einfach einem anderen objekt zugeordnet. oder es wird zu einer rose...

Da wird doch deutlich, dass die KI grammatikalische Zusammenhänge überhaupt nicht kapiert und einfach die im Prompt vorkommenden Substantive, Verben, Adjektive usw. aufgreift und daraus irgendetwas "komponiert", also im wortwörtlichsten Sinn zusammenfügt, ohne dabei auf semantische Korrektheit zu achten.

wie gesagt, das wäre auch kaum in reinkultur trainierbar.

ich finde genau das daran inspirierend und benutze inzwischen weder punkte noch kommas um grammatische strukturen herzustellen, sondern reihe einfach objekte, zustände, oder beschreibungen von oberflächenstrukturen aneinander und ergänze sie mit farb- und form-wünschen und adjektiven.

natürlich funktionieren dinge wie "im stile von picasso" oder "vor grauem himmel" meistens so wie man denkt, aber nicht deswegen, weil das genauso interpretiert werden würde wie bei seinem chatbot bruder.
 
Zuletzt bearbeitet:
Das Problem ist, dass hier viele verschiedene Sachen dargestellt werden sollen. "A table made of rusty fish" alleine geht irgendwie. Aber dazu noch "2 guys playing chess" schließt sich anscheinend aus. Denn ein Tisch an dem Schach gespielt wird, besteht fast immer aus Holz.

Genauso wie eine Schildkröte die auf einem Pferd reiten soll. Da kommt dann eher ein Mischwesen bei raus oder beide Tiere haben Merkmale des jeweils anderen, auch wenn man die Tiere sehr genau beschreibt.
 
"brustwarze" wird übrigens bei dall-e.ru grundsätzlich zu einem apfel, auch im zusammenhang mit männern oder hunden.
Schlicht und einfach Zensur. Das kommerzielle Zeug ist zugebunden bis oben hin. USA und Brustwarzen sowieso^^

ich finde genau das daran inspirierend und benutze inzwischen weder punkte noch kommas um grammatische strukturen herzustellen, sondern reihe einfach objekte, zustände, oder beschreibungen von oberflächenstrukturen aneinander und ergänze sie mit farb- und form-wünschen und adjektiven.

Es gibt da schon sowas wie eine 'Syntax'. Hier mal mein persönliches Surfing-Prompt wenn ich einfach nur schöne Bilder zum Anschauen will:

bright, {__shotsizes__| } {__punk__| } {art| }, photoshot __focus__ complex {futuristic|utopian|dystopic|virtual|holographic|cybernetic|apocalyptic|progressive|desolate| } {large|giant|mini|huge|vast|hyper|symbiotic|subversive|brutalist| } (scifi:__weights__) (sci-fi:__weights__) (fantasy:__weights__) {city|town|village|outpost|skyline|megapolis|habitat|fortress|city|fort|basecamp|city|buildings|megasprawl|tower} (__space__ {style|design|art}:__weights__) with postapocalyptic architecture on a {strange|bizarre|surreal|arctic|water|cosmic|otherworldly| } planet with {clear|blue|cloudy|rainy|milkyway|foggy} sky, (photorealistic:1.1), epic cinematic shot, __colors__, highly detailed, {vast|dense|tight|open|wide|breathtaking|beautiful|trending} composition, hdr, natural colors, 8k textures, __quality__, perfect, impressive, award winning, (emotional:1.2) <lora:SL-Noizer:.31>

Das ist nur der positive Teil des Prompts, den negativen (das, was man nicht sehen will) lass ich mal hier weg. Zugegeben, das ist schon auf etwas Zufall angelegt, aber wie oben geschrieben, manchmal möchte ich einfach nur neue und bisher ungesehene Sachen anschauen. Ich benutze nur Englisch, alles andere ist eine mögliche zusätzliche Fehlerebene und Rechenzeit ist kostbar.

__XXX__ : lädt ein Wort oder einen Wert aus einer Textdatei gleichen Namens.
{} und | : Hier wird zufällig einer der Begriffe innerhalb der geschweiften Klammer für alle Berechnungsschritte des Bildes genommen
() und | : Bei jedem Schritt wird alternierend ein neuer Begriff innerhalb der Klammern genommen (wird hier nicht angewendet; Beispiel kommt aber unten)
(xxx:1.2) : Hier wird diesem Begriff ein höheres Gewicht verliehen; (xxx:__weight__) wäre dann eine 'Gewichtszahl' aus einer Datei.
<lora:SL-Noizer:.31> : Hier wird der Generator angewiesen seine Bilderdatenbank mit anderen (selbst) trainierten Bildern zu erweitern, in diesem Fall wird einfach etwas Rauschen im Renderprozess eingefügt, um am Ende mehr Details zu erhalten.
Genauso wie eine Schildkröte die auf einem Pferd reiten soll. Da kommt dann eher ein Mischwesen bei raus oder beide Tiere haben Merkmale des jeweils anderen, auch wenn man die Tiere sehr genau beschreibt.
Schildkröte war das Triggerwort, das passt hier perfekt. Wie oben geschrieben wird bei der Angabe (dog|cat) als Prompt bei jedem Schritt das jeweils andere Wort genommen, also Schritt 1 von 50 der Hund, Schritt 2 versucht er eine Katze zu machen, Schritt 3 wieder einen Hund und so weiter bis alle Schritte abgearbeitet sind.

Das sind dann solche Ergebnisse:

Die 'Snurtle', eins meiner Lieblingsbilder vom 4.7.23, (snail|turtle)
Bild


Oder der 'Seatiger' vom 6.7.23, (seahorse|tiger)
Bild


Da fehlen noch weitere Angaben wie Photoshot, highly detailed, masterpiece (und viele weitere) aber auch die lasse ich hier der Einfachheit halber weg.

Da gibt es soviel zu entdecken und zu lernen, imho ganz heißer Sch... (sorry für die saloppe Ausdrucksweise :D )
Was ich mit diesem langen Text sagen oder zeigen wollte, man kann durchaus zielgerichtet Ergebnisse erzielen, ist aber, wie vieles andere auch, nicht ohne Weiteres und sofort machbar. Bei den lokal installierten Sachen gibt es mittlerweile mehr Addons als man sich vorstellen kann. Ganz nützlich sind regionale Prompts, damit kann man den Mond auch nach unten links ins Bild setzen. Oder Farbkorrekturen im Render Prozess.. oder die 3d Tiefeninformation mit rausziehen um ein 3D Modell zu erzeugen. Und jeden Tag kommt Neues hinzu.
 
Zuletzt bearbeitet:
Schlicht und einfach Zensur.

das hat mit zensur überhaupt nichts zu tun.

schön wärs, wenn der russische staat wenigstens mal kindesmissbrauch verfolgen würde.

Es gibt da schon sowas wie eine 'Syntax'. Hier mal mein persönliches Surfing-Prompt wenn ich einfach nur schöne Bilder zum Anschauen will:

bright, {__shotsizes__| }

das mag bei dem funktionieren was du nutzt, aber nicht bei dem, um was es hier ursprünglich ging.

und ich würde sowieso vermuten, dass das nur eine zusätzlich funktion der weboberfläche ist, oder?

und sowas ist in doch 5 minuten selbst gemacht.


aber das ist das was ich neulich damit meinte, dass leider jedes wieder ganz anders funktioniert.

auch für meinen anwendgunszewck wird es früher oder später wohl darauf hinauslaufen, dass ich die dinge eher lokal mache, um den standardproblemen der onlineangebote (komprimierung, größenlimit) aus dem weg zu gehen.

aktuell gefällt mir die idee, dass eine russische bank die kosten für etwas übernimmt, was mir nützt.

man kann durchaus zielgerichtet Ergebnisse erzielen

ja, klar, wenn auch meist anders als gedacht. ich habe oft eine recht konkrete vorstellung davon, was ich für material rausbekommen möchte und mit der zeit kennt man immer mehr kniffe, wie man das gegenüber dazu bekommt, das auch abzuliefern.

ist aber, wie vieles andere auch, nicht ohne Weiteres und sofort machbar. Bei den lokal installierten Sachen gibt es mittlerweile mehr Addons als man sich vorstellen kann. Ganz nützlich sind regionale Prompts, damit kann man den Mond auch nach unten links ins Bild setzen. Oder Farbkorrekturen im Render Prozess.. oder die 3d Tiefeninformation mit rausziehen um ein 3D Modell zu erzeugen. Und jeden Tag kommt Neues hinzu.

vor allem wäre ein alphakanal mal was.

und was ich persönlich ebenfalls gut gebrauchen könnte wäre zugriff auf das oder die seed values, so dass man regelmäßig größere serien von sehr ähnlichen bildern erstellen kann. wenn sehr ähnliche nur ab und zu durch zufall entstehen, so wie zur zeit, stört mich das eher bei dem, was ich damit mache.

es gibt jetzt im jahr 5 nach KI also neben kursanalyse auch sprache, bild, video und audio, wobei die reine generation von musik noch in den kinderschuhen steckt.

ist dir schon mal was mit vectorgraphiken begegnet? das wäre sensationell.
 
ist dir schon mal was mit vectorgraphiken begegnet? das wäre sensationell.
Nein, von einer KI die Vectorgraphiken ausgibt, weiß ich nichts. Ein Weg wäre das KI Modell mit einem Lineart-LoRa zu erweitern, dann das Bild generieren und anschließend im Vektor Malprogramm zu vektorisieren. Ist halt ein Schritt mehr. Zum Ergebnis kann ich nichts schreiben, das letzte Mal Vektormalprogramm ist 20 Jahre her.
Leonardo.ai spuckt auch komplett nackte Menschen aus, wenn man das möchte.
Für Leonardo (und wahrscheinlich für viele andere Anbieter) gibt es Anleitungen, welche Worte/Prompts noch funktionieren. Leonardo errechnet aus dem Prompt einen Score ob die Ausgabe den Richtlinien entspricht oder nicht. Wer es am Beispiel Leonardo genau wissen will, hier entlang (englischer Text): https://docs.leonardo.ai/docs/handle-not-safe-for-work-image-generation-nsfw und hier (auch Englisch): https://aioptimistic.com/leonardo-ai-content-moderation-filter/

Moderation der Prompts ist imho für einen kommerziellen Anbieter unabdingbar, ansonsten wird die Bude ganz schnell dicht gemacht wenn dort, sagen wir mal, unakzeptable Bilder generiert werden könnten. Das Bild wird auf deren Servern generiert und dein Browser macht auch eine Kopie davon.
Alle Synonyme für das Wort 'nackt' in zig Sprachen zu blocken ist wahrscheinlich recht schwierig. Und das wäre nicht das einzige Wort, was geblockt werden müsste.

und was ich persönlich ebenfalls gut gebrauchen könnte wäre zugriff auf das oder die seed values, so dass man regelmäßig größere serien von sehr ähnlichen bildern erstellen kann. wenn sehr ähnliche nur ab und zu durch zufall entstehen, so wie zur zeit, stört mich das eher bei dem, was ich damit mache.
Ich kenne es nur mit Seed ;-). Ich nehme an, du kannst auch coden, dann schau dir direkt ComfyUI an (man kann selber Nodes bauen), ein Bild der Oberfläche habe ich eine Seite vorher verlinkt. Dazu noch ein paar Videos wie man LoRas trainiert und du kannst loslegen.
Wer nur mal lokal ein bischen probieren möchte, kommt gut mit Automatic1111 aus, dafür gibt es zig Modifikationen.

Beide lassen sich ganz einfach ohne Python Kenntnisse mit Stability Matrix von https://lykos.ai/ installieren. Schnelle Internetleitung ist zu empfehlen, es werden schon ein paar GB runtergeladen. Die Grafikkarte sollte für stressfreies Plug and Play mindestens 8GB haben und von Nvidia sein. Es geht auch weniger Speicher und auch mit AMD, aber da habe ich keine Erfahrung.
 
Ich kenne es nur mit Seed ;-). Ich nehme an, du kannst auch coden da habe ich keine Erfahrung.

es geht mir immer noch nur um das russische kandisky 2.2., und bei online services kannst du leider nur mit seeds arbeiten wenn das dort so angeboten wird.

lokal geht eh immer alles irgendwie. mit mehr oder weniger aufwand. zur zeit rechtfertigt sich ein weiterer rechner dafür nicht. :)

das far future ziel für audio und bild wäre eh, dass man leichter-als-heute-bedienbare tools hätte, mit denen man selbst modelle entwickeln und sie nach belieben trainieren kann. dabei wäre dann vor allem spracheingabe nicht mal ansatzweiose so wichtig wie andere formen token zu erzeugen. (audio to audio?)

wenn ich mir die beispiele in openAI universe anschaue, dann verstehe ich da aktuell noch mehr nicht als nur die verwendeten programmiersprachen. für letzteres habe ich wzar jemanden, aber bevor man nicht weiß, was eigentlich gemacht werden soll...
 
Für Leonardo (und wahrscheinlich für viele andere Anbieter) gibt es Anleitungen, welche Worte/Prompts noch funktionieren. Leonardo errechnet aus dem Prompt einen Score ob die Ausgabe den Richtlinien entspricht oder nicht. Wer es am Beispiel Leonardo genau wissen will, hier entlang (englischer Text): https://docs.leonardo.ai/docs/handle-not-safe-for-work-image-generation-nsfw und hier (auch Englisch): https://aioptimistic.com/leonardo-ai-content-moderation-filter/

Irgendwann schien die Blacklist mal ausgefallen zu sein, weil haufenweise nackte Frauen generiert wurden, weil der prompt "nude" offensichtlich nicht gefiltert wurde. Hatte mich echt gewundert, was da los ist
 
das kann ich dir erklären: das passiert NUR, wenn man ihn dauernd eingibt. (z.b. in der hoffnung, dass es irgendwann doch mal funktioniert.)

Das ist gar nicht nötig. Wenn man nichts Besseres zu tun hat, als nackte Menschen zu generieren, kann man einfach "undressed" als Prompt eingeben, weshalb auch immer, das funktioniert.

Zu den Anfangszeiten habe ich mal ausprobiert, wie weit man bei den Bildergeneratoren gehen kann. Bing kriegt schon die Krise, wenn man einfach nur Bikini eingibt oder von einer Frau den "full body" anstatt dem Gesicht haben möchte. Einfach nur eine Beschreibung, dass man die ganze Person sehen will ging schon zu weit, keine Ahnung ob das immer noch so ist, Bing habe ich länger nicht genutzt. Brutale Bilder waren USA-typisch kein Problem, ein Bikini wie gesagt schon zu viel. Naja und bei Leonardo gab es NSFW Bilder von anderen Leuten aber eben diverse Blacklist-Wörter bzw Zusammenhänge und dann habe ich halt etwas rumgetestet und war überrascht, dass "under the shower" wirklich nackte Menschen ausspuckt, was ich so von anderen KIs nicht gewohnt war.

Das hat auch gar nichts mit der Nacktheit zu tun, ich wollte einfach wissen, was damit so geht. Ich bin zB auch jemand, der bei Computerspielen probiert, hinter die Levelgrenzen zu kommen, einfach nur, weil es mir Spaß macht, das auszutüfteln.
 
kandinsky 3.0 versteht mich irgendwie nicht. es ist fast so, als ob es nur russisch könnte.


ein stapel dünne rosa stahlplatten in der braunen wüste (kandinsky 2.2)

1700971097858.png

ein stapel dünne rosa stahlplatten in der braunen wüste (kandinsky 3.0)

1700971185736.png

drei dünne grüne stahlplatten in der arktis (kandinsky 2.2)

1700971362388.png

drei dünne grüne stahlplatten in der arktis (kandinsky 3.0)

1700971475122.png

eisberg im meer (kandinsky 2.2)

1700971836855.png

eisberg im meer (kandinsky 3.0)

1700971858333.png
 
Zuletzt bearbeitet:
wenn das dritte nicht wäre, hätte ich vermutet, dass da zu viele Petrischalen in den Trainingsdaten waren ...
 
Hier mal ein Bild von einer modernen grafischen Benutzeroberfläche. Ist wie Musik patchen :)

Anhang anzeigen 191873

so ungefähr stelle ich mir das vor, vor allem da man dort erst bilder generieren und diese dann direkt wieder weiterverarbeiten kann, weil man einfach mehrere verschiedene KI prozesse in einem prozess hat.

aber letztlich würde ich eher versuchen das in meinen bestehenden umgebungen irgendwie zu integrieren, denn ich habe einen eigenen modularen videosequenzer - pixxtures - der 18 jahre alt ist, also aus einer zeit stammt, als es das sonst noch nirgends gab.


1701524684895.png


aber leider muss ich auch dazu dann doch wohl erst mal alles darüber verstehen wie man in comfy mit dem KI zeug arbeitet, oder mit anderen worten: dort drin mal alles ausprobieren, was es so gibt.

über automator oder die tcsh shell dürfte man das ding eher nicht fernsteuern können, von midi oder OSC ganz zu schweigen...

das wird noch eine weile dauern, aber es steht auf der to do list. darf ich dich kontaktieren wenn es losgeht?
 
darf ich dich kontaktieren wenn es losgeht?
Mache doch besser einen eigenen Thread zu ComfyUI auf wenn es soweit ist, es gibt hier sicher einige die da mehr Plan von haben und viele, die da bestimmt mal reinschnuppern wollen und es dann auch verfolgen können. Ich selber habe schon eine ganze Weile lang Featurefreeze. Kommt ja jeden Tage was Neues.
midi oder OSC ganz zu schweigen...
Gibt es bestimmt was, aber Echtzeit ist noch nicht drin. Habe die Tage SDXL Turbo gesehen, das ist schon nahe dran, aber nicht selbst probiert.
 


Neueste Beiträge

News

Zurück
Oben