KI modelle, mit den so etwas möglich ist, haben aber als grundvorrausetzung, dass man erst mal überhaupt musik tief genug analysieren kann.
ich habe mir erst neulich wieder einen wolf geklickt um auf der basis von melodyne ein mehrstimmiges spinett stück korrekt einzulesen.
und ich brauchte nur die note ons - und ich verstehe genug von DSP und hör audio gut genug um mir die passen pre-filter dafür selbst zu bauen. im endeffekt musste ich aber dann doch noch überall die transienten/attacks manuell festlegen.
mit intonationskennlinien ist mehrstimmigem material mit derzeitiger technik nicht wirklich beizukommen, und wenn ich erst gar keine modelle habe, dann nützt mir auch die schnellste KI GPU nix.
Ich sag jetzt mal Bilder zu analysieren, die Regeln zu verstehen und dann eine KI so damit zu trainieren dass diese täuschend echte Bilder generieren kann, ist jetzt im Prinzip auch nicht einfacher oder schwerer... die Datenmengen sind anders, dazu später.
Die KI lernt ja nicht die Regeln.... die ist eher wie ein kleines Kind, verarbeitet Beispiele mit Text/Bild Paaren und lernt aus den richtig/falsch Ergebnissen...
Durch eine eine grosse Menge an Bildern erkennt die KI immer wiederkehrende Strukturen setzt diese Muster ein und "lernt" aus den Ergebnissen. Verschiedene Modelle haben verschiedene Themen ( die Bibliothek an Bildern von denen sie lernt ) und deshalb können verschiedene Modelle manche Themen besser, manche schlechter.
Die KI ist bei Bildern jetzt soweit weil da einfach schon sehr lange und intensiv daran geforscht wurde. Wenn man den selben Aufwand in Musik stecken würde, wäre da sicher auch bald mit Ergebnissen zu rechnen.
Die Datenmenge bei Bildern ist halt sehr viel kleiner als bei Musik, und es gibt viel mehr! Deshalb bot sich das an das zu nehmen. Aber das Prinzip ist dasselbe!!!
Stable Diffusion wurde mit etwa 5 Milliarden Bildern trainiert, die inklusive dazugehörigem Text aus dem Internet gezogen wurden... deshalb kann stable diffusion Text den Bildern zuordnen.
Es ist recht kompliziert was da passiert, aber einem Bild wird ganz einfach erklärt "Rauschen" hinzugefügt und dann wieder subtrahiert, und dadurch lernt die KI
Sie würde "Rauschen" zur Musik hinzufügen und wieder abziehen... genauso wie bei Bildern.
Die automatische Text-Zuordnung würde tricky, und die Menge an Musik ist auch nicht so gross wie die an Bildern.... aber, jetzt schau mal auf Soundcloud/Bandcamp, da hast du immer die zugehörigen Tags zur Musik... deshalb wäre das durchaus eine extrem interessante Quelle... wie oben geschrieben warte ich auf die Änderung im Kleingedruckten.
Weil die Datenmengen bei Musik so gross sind und die ersten "Tests" deshalb immer mit niedrig aufgelösten MP3s gefahren wurden, hören die sich halt jetzt an wie die sich anhören... eher so naja. Dass die Bilder-KI mit grossteils stark komprimierten Jpegs trainiert wurden sieht man nicht, aber durch die schlechten MP3s weiss die Musik KI gar nicht wie sich qualitativ gute Musik anhören sollte....
Also wenn ich die Bilder-KI auf Musik übertrage, lernt die einfach "vom Hören" wie sich ein gutes Musikstück anhören muss ohne die Theorie zu kennen... sie entwickelt einen "Geschmack" in einem bestimmten Modell.
Es gäbe, wie bei Bildern, ein generelles Modell das nix ganz gut kann, aber dann ein Modell mit Klassik, eins mit Rock, eins mit Pop, ein mit Jazz und so weiter.... und je nachdem was ich brauche kann ich ein Rock-Modell nehmen, mit einem Klassik Modell "verschmelzen" ( das geht bei Bildermodellen ), ein kleines LoRa Modell mit Pink Floyd, Kansas und Tangerine Dream füttern und dann mal laufen lassen... voilà, spuckt 70er Prog Rock aus.
Um das kontinuierlich zu machen ( also quasi zu streamen ) bräuchte ich aber wahrscheinlich mindestens eine NVidia Tesla T4 und ein SSD Array das die dann Terabyte-grossen Musik-Modelle schnell genug bereitstellen kann... zuhause einfach so geht da nix. Da ist noch lang nichts in Sicht.