Neueste KI zur Bilderzeugung

versuchen Sie diesen Dienst. Dies ist die neueste KI-Entwicklung zum Empfangen […]
Sorry, aber den Bildbeispielen nach zu beurteilen handelt es sich eher um eine Art Sonder-K-Intelligenzija. (Eventuell mit eingebauter по шарам-Simulation? Das würde jedenfalls die völlig diskoordinierten Darstellungen hinreichend erklären.) Wie auch immer, Sonderlösungen können die russischen Wissenschaftler, keine Frage, Künste auch, ob es der große Maler Ivan Gogh war oder der Philosoph und Mathematiker Pietja Goras oder der berühmte Modedesigner Woroschilow … Erst gerade wieder mit der gelungenen Mond-Sonderlandung die Sososonderfähigkeiten im bis dato so beworbenen KernkompetenzBereich zweifelsfrei bewiesen.

im Ernst jetzt: einem Z-erver auch nur einen Klick zu geben fände ich persönlich derzeit zum Schämen.
 
Zuletzt bearbeitet:
Ich nutze derzeit das von Microsoft, irgendwie bekomme ich damit am ehesten hin was ich möchte.

 

Anhänge

  • OIG (7).jpeg
    OIG (7).jpeg
    258,6 KB · Aufrufe: 19
  • OIG (6).jpeg
    OIG (6).jpeg
    259,4 KB · Aufrufe: 20
  • OIG (3).jpeg
    OIG (3).jpeg
    195,7 KB · Aufrufe: 9
  • OIG (4).jpeg
    OIG (4).jpeg
    199,2 KB · Aufrufe: 9
  • OIG (5).jpeg
    OIG (5).jpeg
    232,5 KB · Aufrufe: 9
  • OIG (2).jpeg
    OIG (2).jpeg
    268,6 KB · Aufrufe: 8
  • OIG.uDza.jpeg
    OIG.uDza.jpeg
    157,6 KB · Aufrufe: 10
  • OIG (1).jpeg
    OIG (1).jpeg
    198,7 KB · Aufrufe: 11
  • OIG.jpeg
    OIG.jpeg
    200,1 KB · Aufrufe: 11
  • hwj7sq2p9xsb1.png
    hwj7sq2p9xsb1.png
    8,9 MB · Aufrufe: 10
  • OIG (8).jpeg
    OIG (8).jpeg
    250,6 KB · Aufrufe: 8
  • Köln Sonnenuntergang.jpeg
    Köln Sonnenuntergang.jpeg
    138,5 KB · Aufrufe: 9
Bing:

"wedding phote of a japanese couple in the 1950s"
_58b8f6f7-4ee8-4116-9a59-a49c290ce27c.jpeg
"custom shoe"
_e5c00538-731b-400f-a787-83bcca84fbee.jpeg
"train riding into the sunset, lake and mountains, fantasy acrylic"
_8b2c1490-c633-476b-bd86-711997cd91ef.jpeg

"cowboy riding on a horse, throwing a lasso towards a bull" - mit dem Lasso hat Bing noch Probleme bei dem einen Bild...
_02adf9ae-a451-4fcc-9c9b-57027be0fb35.jpeg_4ec7d86f-0c49-4ab7-baf1-7ed2f09a3f22.jpeg

"soccer player scoring a goal with a bicycle kick. The player is at the 12 yard spot, his back facing towards the goal." - Fail , Bing weiß nicht wo der 12 yard spot ist
_5958e192-a426-4533-8235-7e15ecbbe104.jpeg

"American Football Player making a touchdown. another player close behind him trying to tackle"
_6586c058-8f6b-4a7c-a12a-403973bb0509.jpeg

"gothic music party like in 90s year Zwischenfall club in Bochum, Germany" - Nunja, also so ging es dort damals nicht zu, rofl
_d17d6fec-ae8d-4006-90c1-b6f32b23ead6.jpeg

"hyperrealistic photo of a custom designed basketball sneaker"
_fc04e6eb-3b82-4015-a0a9-689b6a3117f4.jpeg_c877f95c-d5e3-4515-87bf-d414471f591e.jpeg

"street scene of 1925 Berlin, with pedestrians and a tram. make sure faces of people are realsistic." - puh also die Gesicher....
_e5ace940-dfe4-4f0b-bd7c-d0c0cbbcff65.jpeg_87ec8420-cfc4-47b7-9cb6-c8dd79e201fd.jpeg

"DHL delivery driver handing a package to a happy customer. hyperrealsistic photo. SIngapore setting, sunny day."
_5398904b-1e40-4a22-b056-0b3359798346.jpeg_f0b8592d-b447-4628-9eab-eb1eebcf7832.jpeg
 
Zuletzt bearbeitet:
ja, geht leider nur mit größerer abbildung.
mach ich zwar auch nicht immer, aber ist vielleicht angenehmer immer nur 2-3 jpgs zu posten, das "erschlägt einen" nicht so ; )
 
ich finde die customer shoes, Berliner strassenszene und die paketübergabe #2 schon ziemlich gelungen für ein gratisprogramm.
 
Ich habe die ai benutzt um einen neuen Avatar zu generieren und bin mit dem Ergebnis zufrieden. Danke fuer den link.
Die Farben sind vielleicht etwas zu duester/zu kalt, aber das laesst sich noch anpassen.
 
prompt : african lady in her 30s, psychedelic art.

prompt: causcasian, long haired guitar player, psychedelic art

prompt: long haired asian keyboard player, psychedelic art

prompt : african lady in her30s , singing into a microphone, psychedelic art

prompt : 60yo drummer with beard and long hair, psychedelic art

alles bing/Dall E 3
 

Anhänge

  • _de6fa6f4-c6a2-4649-b6a3-77182a397340.jpeg
    _de6fa6f4-c6a2-4649-b6a3-77182a397340.jpeg
    280,5 KB · Aufrufe: 8
  • _a45c1b0f-3c4c-418d-b9ee-b2f1a1b512a9.jpeg
    _a45c1b0f-3c4c-418d-b9ee-b2f1a1b512a9.jpeg
    344,1 KB · Aufrufe: 8
  • _11deb081-1885-4bf8-b1c7-5e5f57fc4256.jpeg
    _11deb081-1885-4bf8-b1c7-5e5f57fc4256.jpeg
    320,9 KB · Aufrufe: 9
  • _db3b3216-8adb-442b-800d-8d91560cae9f.jpeg
    _db3b3216-8adb-442b-800d-8d91560cae9f.jpeg
    310,1 KB · Aufrufe: 7
  • _cfa21beb-096b-4918-a502-0122166e42b3.jpeg
    _cfa21beb-096b-4918-a502-0122166e42b3.jpeg
    291,6 KB · Aufrufe: 11
Zuletzt bearbeitet:
ach hier war der andere Thread (ah, ein übersehenes unterforum).. genau den (hier erwähnten) meinte ich,
.. ist der Resin, Liquid, Petri Art.. in Media 2.0 gar kein AI Thread?
voll 4wirred ei am..
watt eva..
ich mache seit 2 Tagen jedenfalls kaum noch was anderes lol

OIG.4gvdCKgfaHy8i.lyOsqQ.jpgOIG.BvtDQLi0FT9v3vwc6KIg.jpg

OIG.MyAO1zbxV0cN7Zy8BYv1.jpgOIG.k2_u_2Ll5EBzjWLkxfa9.jpg
electronic music machine you can see through slits a slight fire shimmer from inside machine, smoke rises out of machine,
two robotic hands control machine, 3d art, abstract, dark industrial metal look.
 
ja ich bin ganz schön baff, was man damit schon machen kann. An die kostenpflichtigen Sachen habe ich mich noch nicht rangetraut.

ich habe noch kein kostenpflichtiges angebot gefunden, was mir irgendeinen preis wert wäre, da ich mich nur für abstrakte ergebnisse interessiere, wozu man erst mal einiges darüber lernen muss wie man prompts schreibt.

da gibt es ja tatsächlich angebote wo man für 30 euro 75 bilder erstellen kann... die richten sich ganz offenbar weniger an gelangweiligte nerds oder untergrundkünstler auf der suche nach collagenmaterial als denn vielmehr an agenturen, die dort ohne viel verstand prompts der marke "ein holzstuhl in einem weißen zimmer" eingeben um das erwartebare und langweilige ergebnis davon dann auf die webseite eines kunden zu tun ohne die 50 euro lizenzgebühr bei picture-sonstwas.com bezahlen zu müssen.

bei der demoversion der sber bank mache ich 8 tabs auf, kopiere meine prompt rein, und 90 sekunden später habe ich 8 versionen. das durchgeklicke mit den captchas hat man nach einer halben stunde auswendig drauf und dann nervt es plötzlich garnicht mehr. mit jedem anderer software wäre das gleiche viel mehr arbeit.

das einzige, was nicht ideal ist, ist natürlich das größenlimit von 1024, und dass man es nicht automatisieren kann (vor allem wegen dem captcha). dafür wäre ich bereit einen monaltiche gebühr zu bezahlen - oder eine transfer/berechnen-gebühr.


ist euch aufgefallen, dass ARD und ZDF inzwischen auf KI bilder zurückgreifen?

gestern war in der tagesschau eines mit einem satelliten, heute ist da eines mit einer rakete.

beide darstellungen sollen etas zeigen, was es noch nicht gibt weil es erst in der zukunft passieren wird - perfekter use case.


1697625998503.png
 
Sorry, aber den Bildbeispielen nach zu beurteilen handelt es sich eher um eine Art Sonder-K-Intelligenzija. (Eventuell mit eingebauter по шарам-Simulation? Das würde jedenfalls die völlig diskoordinierten Darstellungen hinreichend erklären

das ist alles openAI, also das gleiche was jeder zweite anbieter benutzt.

aber man muss es natürlich bedienen können. ;-)

was ich sehr interessant finde ist, dass man es komplett vergessen kann seinen üblichen stil prompts zu verfassen von einem zum anderen dienst zu übertragen.

man ist da immer nur auf dem einen gut, und macht man das gleiche woanders kommt nicht das raus, was man gerne hätte.


wir basteln uns hier zur zeit ein großes archiv mit grundmaterial zum weiterverarbeiten für kunst, und der gute dalli hat da inzwischen neben maya, blender, drawing tablets, fotoapparaten, animationsprogrammen und max/msp einen festen platz unter den tools.

e60a878ad777406bbd3874c16fb9513e_00000.jpga71f3e4c1a244449ab44f76cc119e55e_00000.jpg0f730a3577bc412bbac881b00786f4a9_00000.jpgb099b8f79fb44dff8c2b30ff30d3cd6b_00000.jpg01e13e751b2e454dbdfb3147cf1cea79_00000.jpg8c1ca4c2265641f39fc2e598528c831f_00000.jpg97fc206c070941e19f5bf79cda60ac44_00000.jpged23b164ec3c439b9bb4acdf503f1a94_00000.jpg4bb0b3731e2e44d1a96c1bccf256d903_00000.jpg021a0664cc304d868987d210df4de010_00000.jpg
 
störend bleibt, dass sich objekthaftes fast grundsätzlich in der mitte befindet und es keinen einheitlichen trick gibt wie man das gezielter platziert.

ebenfalls ein wenig nervig ist, dass farben grundsätzlich überzeichnet und übersättigt sind und insbesondere "grün" immer das gleiche grün wird. das kann man zwar später woanders leicht ändern, aber für die inspiration ist das nicht so toll.

die textausgabe soll in kandinski 3.x stark verbessert sein (wer´s braucht), auf den rest bin ich gespannt.2bc8ce0202414c73aa851afdfe1e253b_00000.jpg87796febf3984cdeaab5f23f1fd1e8f1_00000.jpg086ccb326ddc4c2f9dd180e6a3adf2f8_00000.jpg228d7049c9cf440f96d6f583b3387eaa_00000.jpg570dbd65919c40e8a94005152027f219_00000.jpg6e2eaeba27d140f0ba5cae593f480433_00000.jpg61be4e538ee44f288a452d820717ba7f_00000.jpg9054b05f3e30400c8c2cfe5d4cb15516_00000.jpg6889937c7bcb4d12b6fc8b3edab3c03b_00000.jpg
 
kann uns jemand mal diese stile in dem stile menu bei kandinski in deutsch oder englisch übersetzen - oder als kyrillischen text hier hinein kopieren?

Может ли кто-нибудь перевести эти стили в меню стилей в Кандински на немецкий или английский язык или скопировать их сюда как кириллический текст?

mit browser übersetzungstools kommt man an menus und formulare nicht heran und im html finde ich es auch nicht.

1698590077331.png
 
kann uns jemand mal diese stile in dem stile menu bei kandinski in deutsch oder englisch übersetzen - oder als kyrillischen text hier hinein kopieren?
sind das vielleicht die selben wie hier? https://rudalle.ru/kandinsky22/image

1698592391212.png

oben rechts kannst du bei rudalle.ru die Sprache umschalten.

Ansonsten kann man sie nach und nach anklicken, und über "Element untersuchen" den Input-Value auslesen. Ist natürlich schon etwas umständlich.
 
Zuletzt bearbeitet:
Ich kann mir nicht helfen, aber grammatikalische Zusammenhänge zu erkennen und diese in "intelligenter" Weise kreativ bildlich umzusetzen, daran hapert es aber noch gewaltig:

1699445815575.png

gleicher Prompt:

1699445924144.png

und noch ein Ergebnis des gleichen Prompts:

1699446002333.png

Wer als erster den Prompt errät, hat gewonnen... ;-)
 
Wer als erster den Prompt errät, hat gewonnen... ;-)

das erwarte ich gar nicht mehr, dass das so funktioniert.

wenn man so denkt, übersieht man, dass das sprachmodell nicht mal die halbe miete ist.

bei der erstellung von prompts überlege ich mir immer zuerst welche begriffe und sätze das, was ich haben will, wohl bei einer google bilder suche benötigt würden um ein entsprechendes ergebnis zu bekommen - da ich vermutlich zurecht davon ausgehe, das die mehrheit der materials in den modellen aus dem web gescraped wurden und der html text in der nähe des bildes dabei mit berücksichtigt wird, als das denn klickarbeiter in fernost bilder verschlagworten und beschreiben.


beispiel:


man versucht ein gemälde von einem apfel neben einer birne zu erhalten und gibt "gemälde von einem apfel neben einer birne" ein.

sehr häufig erhält man nun als antwort fotos von 2 bildern nebeneinander, die wahlweise nur äpfel oder nur mangoananas zeigen.

warum? nun, ich vermute, dass es einfach sehr wenige bilder im netz gibt, die erstens überhaupt äpfel zeigen und zweitens auch nur sehr wenige webseiten, auf denen unter einem bild steht "dies ist ein bild, auf dem A neben B" zu sehen ist.


sehr häufig erhält man bei solcher verwendung von "A neben B" oder "A über B" auch eine antwort, die einfach in der mitte mit einem geraden strich geteilt ist und wieder 2 verschiedene dinge zeigt, die man als mensch natürlich als 2 unterschiedliche bilder rezipiert und interpretiert.

warum? nun, das gleiche spiel, es gibt einfach unheimlich viele solcher bilddateien im netz, die auch so aufgebaut sind. will sagen: sehr viel häufiger als andere, bei denen auch "A neben B" assoziiert ist.


außerdem scheint schon die sprach-interpretation anders zu sein als in chatbots - zumindesten was unsere wahrnehmung davon angeht.

in einem openAI basierten chatbot hast du die prompt (das ist das token) und nachdem der bot geantwortet hat, sendest du das nächste token. schon die erste antwort des bots befindet sich aber auf einer ganz anderen ebene, die man technisch den kontext nennt (nicht mit dem zu verwechseln, was man normalweise darunter versteht)

in einem chatbot ist der kontext die untere ebene und der wird von den token nur getriggert - und die komplexität des tokens bestimmt die größe des kontexts.

beispiel:

user:
kannst du mir eine zahl nennen?

bot:
17 ist z.b. eine zahl.
sie ist sehr schön, man kann sie mit einem stift auf papier schreiben.

user: noch eine?

bot:
29 ist z.b. eine zahl, genau wie 17 eine zahl ist.
sie ist sehr schön, man kann sie mit einem stift auf papier schreiben.



jetzt im vergleich dazu ein kleineres token, was zunächst zur gleichen antwort führen könnte:

user:
17

bot:
17 ist eine zahl.
sie ist sehr schön, man kann sie mit einem stift auf papier schreiben.

user: noch eine?

bot:
"noch eine" ist teil der deutschen sprache. die formulierung wird vor allem in bayern verwendet. ansonsten kann ich hier leider nicht weiterhelfen, denn ich bin nur ein spielzeug und du bist hier das produkt.



der bot hatte keine chance zu verstehen, dass wir noch eine zahl haben wollten, weil schon im ersten token von zahlen niemand etwas gesagt hat. "noch eine 17" hat er zwar verstanden, aber es schien ihm naheliegender zu sein zu reproduzieren, was bei wikipedia über das wort "noch" steht.


von einem bildgenerator hingegen erwartet man ja eigentlich überhaupt nicht, dass er uns beispielhaft eine 17 malt, wenn ihn fragen, ob er eine zahl kennt. hier ist der kontext, der in den modellen enthalten ist, schon überhaupt keine sprache mehr, die sich auf die eingabe beziehen würde.

deswegen ergeben dort auch sehr ähnliche token oft komplett andere antworten, während es bei chatbots genau umgekehrt ist.

wenn du in dalli ruski gemälde graphik retro rotes haus unter dreidimensionalem laser im sturm eingibst und dann nur das "rot" in "grün" änderst oder auch nur noch "17" dahinterschreibst, erhälst du als antwort schon etwas vollkommen anderes, z.b. ein aquarell von einem haus im sturm aber ohne laser statt einem foto von einem laser in einem haus aber ohne sturm.


du kannst es also bei diesem (nicht bei allen) bildgenrator komplett vergessen, einfach englisch oder deutsch mit ihm zu kommunizieren. stattdessen musst du versuchen, dich seinem kontext und seinen modellen anzunähern.
 
Zuletzt bearbeitet:
Gute Vorschläge, aber mein Prompt lautete:

"Schubiduh und Schabadah spielen gemeinsam Schach an einem Tisch, der aus verrosteten Salzheringen gedengelt wurde."

Es ist zwar irgendwie umgesetzt, wobei die schachspielenden Fantasiefiguren ja noch am ehesten dem Prompt entsprechen, aber der Rost sollte sich eigentlich ausschließlich auf den Salzheringen abspielen, aus denen der Tisch gedengelt sein sollte. Es hätte also ein aus plattgehauenen, rostigen Salzheringen bestehender Tisch (zumindest die Tischplatte) zu sehen sein müssen. Stattdessen friemelt die KI den Rost an die Wände oder an die Figuren.

Da wird doch deutlich, dass die KI grammatikalische Zusammenhänge überhaupt nicht kapiert und einfach die im Prompt vorkommenden Substantive, Verben, Adjektive usw. aufgreift und daraus irgendetwas "komponiert", also im wortwörtlichsten Sinn zusammenfügt, ohne dabei auf semantische Korrektheit zu achten.

Aber vielleicht ist es genau diese Unzulänglichkeit, die diese teils absurden, teils lustigen Ergebnisse generiert.

Schön wäre es, wenn man die Umsetzung tiefergehend - was korrekte Semantik angeht - parametrieren könnte...
 


News

Zurück
Oben