Morph! NSynth von Google

View post
Das hier kennen viele vielleicht schon vom Neuron, Prosoniq und Kyma - Google macht es jetzt und schreibt Machine Learning dran..

Sieht ein bisschen wie ein Kaoss Pad aus, ist aber Open Source.

Und? Ist das was?
 
  • Daumen hoch
M.i.a.u.: Max
Zu viel Werbegelaber im Video aber Deep Learning ist ein Feld, da wird noch so viel kommen.
Das hat bei automatischer Betitelung von Bildern angefangen und hört noch lange nicht auf.

Wenn ein Deep-Learning Tool Sound durch kurzes reinhören analysiert und das dann nachbaut, weil der Rechner es mit Millionen Beispielen schon gelernt hat ist ja schon super. Was aber wenn es dann nicht nur Leads, Bässe oder so sind, sondern irgendwann Sprache und der Rechner dann durch ein kurzes reinhören weiß, wie man mit dem Sprachschnippsel dann den komplette Sätze bildet usw, ähnlich wie das Adobe Tool vor einiger Zeit. Wird im Resynthese-Feld sicherlich eine Menge interessanter Sachen aber auch einige Probleme mit sich bringen. Alleine schon, wenn man wie im Beispiel dann die Stimme von Jemandem missbrauchen könnte, es aber nicht wirklich seine Stimme ist, wird rechtlich bestimmt schwierig. Oder ob der Sound von einer Platte gesamplet wurde oder der Rechner den Sound einfach nur verdammt gut nachgebaut hat.

Die Kiste hier im Post ist auf jedenfall viel interessanter als die ganzen Substraktiven-Standartsynths.
 
Ja, aber ich dachte eher an sowas: Man lässt den Computer zb eine Accapella von Adele hören (oder wenn er richtig gut ist, müsste er ja die Sprache auch aus dem normalen Song heraushören können) und singt dann selber was komplett anderes ein und der Rechner lässt es dann wie Gesang von Adele klingen.
 
Ich denke mit Wavenet würde so was auch gehen, wenn man ein Speech to Text Tool dazwischen schaltet.
Wobei ich nicht weiß wieviel Sprache man braucht um einen Sprecher zu lernen, ob da ein Acapella ausreicht.
 
Find' ich cool.
Ist das ein reines Hardware-Dingsi? ...oder gibt's da auch was im Browser/als Software-Lösung zu?
 
Das ist gar nichts. Weil es nicht selbstbestimmt passiert.
Derjenige der das benutzt hat keinen blassen Schimmer was eigentlich vor sich geht.
Das gehört zu Googles Strategie seinem neuronalen Netzwerk das maschinelle Lernen bei zu bringen.
Es gibt auch eine Seite wo man seine Fotos hochladen kann um der KI bei zu bringen wie kreative Fotos gemacht sind. Oder eigene Videos um Teile davon durch die KI anlysiern und ersetzen zu lassen. Stichwort Pornos mit fremden Köpfen.
Sobald maschinelles Lernen Krativität nachahmen kann, wird es kommerziell angewandt.
Letztlich trägt derjenige dazu bei wer bei solchen Projekten mitmacht, Humane Kreativität wertlos zu machen. Weil man ab einem bestimmten Punkt, nicht mehr zwischen menschlich gemacht oder durch eine KI entworfen, unterscheiden können wird. Und viele das auch gar nicht mehr interessiert.
 
Das ist gar nichts. Weil es nicht selbstbestimmt passiert.
Derjenige der das benutzt hat keinen blassen Schimmer was eigentlich vor sich geht.
Das gehört zu Googles Strategie seinem neuronalen Netzwerk das maschinelle Lernen bei zu bringen.
Es gibt auch eine Seite wo man seine Fotos hochladen kann um der KI bei zu bringen wie kreative Fotos gemacht sind. Oder eigene Videos um Teile davon durch die KI anlysiern und ersetzen zu lassen. Stichwort Pornos mit fremden Köpfen.
Sobald maschinelles Lernen Krativität nachahmen kann, wird es kommerziell angewandt.
Letztlich trägt derjenige dazu bei wer bei solchen Projekten mitmacht, Humane Kreativität wertlos zu machen. Weil man ab einem bestimmten Punkt, nicht mehr zwischen menschlich gemacht oder durch eine KI entworfen, unterscheiden können wird. Und viele das auch gar nicht mehr interessiert.
Das stimmt, aber ich denke der Punkt an dem man unterscheiden könnte ist schon vorbei.
Schon mit der heutigen Technik ginge eine Menge irrer Sachen die einfach noch nicht gemacht ist,
aber gemacht werden wird in den nächsten 10, 20 Jahren.
Und die Technik bleibt nicht stehen, vor kurzem hat AI den Mensch in Go besiegt, heute gibt es eine upgedatete
AI die gegen die AI von gestern 100-fach gewonnen hat.
Im Moment ist das alles noch in Laboren die eine Menge Rechenpower und Geld zur Verfügung haben,
aber das investierte Geld will ja Return of Investment und deswegen werden wir AI bald überall sehen
auch an vielen Stellen wo es echt unangenehm wird.
Es gibt auch schon Spezialprozessoren für neuronale Netze die das Netz in Hardware berechnen.
Keiner weiß was damit gemacht wird oder werden wird.
Und Kinder werden mit AI Spielzeug aufwachsen.

Der N-Synth ist eigentlich ein Symptom, ein erster Versuch diese Art Forschung zu Geld zu machen.
 
Find' ich cool.
Ist das ein reines Hardware-Dingsi? ...oder gibt's da auch was im Browser/als Software-Lösung zu?
Offenbar ist es ja Open Source, dh - eigentlich braucht man ja nicht wirklich HW dafür.
Jaja, den Werbeteil mit "wir hier sind super, wir haben alle Buzzwords eingebracht und so" muss man überspringen, typisches Silicon Valley-Video.
Aber am Ende ist es eben ein Morpher - ich würde mich nicht so wundern, wenn es das für Android geben können sollte. Fürs Google Pixel oder so.

Würde das KI Ding nicht zu ernst nehmen, Machine Learning und so sind halt die aktuellen Superworte, die überall drin stecken müssen.
 
Die Frage ist ob man selber Samples einladen kann die dann analysiert werden oder ob das nur vorberechnete Sounds sind.
 
Und trotz des ganzen Marketinghypes außenrum klingts halt doch nur nach
schwachbrüstigem Vocoder...

Wieder das alte Problem von Resynthese: zu wenig SinusOperatoren.

Selbst Alchemy mit seinen 600 Ops klingt in der Resynthese extrem flach.

Ich wünsche mir die Resynthese mit 20.000 Operatoren, dann kommt man wahrscheinlich
langsam ran an ein sinnvolles Klangspektrum.
Aber dann läufts halt nicht mehr in einer kleinen Desktopbox, sondern braucht nen Großrechner...
 
Ich versuchs,
es reichen 1024 Bänder (oder ein FFT von Größe 2048 ) um den Frequenzbereich von
21 Hz bis 22 kHz abzudecken, dh man kann den Hörbereich mit 1024 Sinusoperatoren "samplen".

Dh wenn Du einen Schnipsel Musik hast mit 1/21 Hz Dauer (also ca 0.05 Sekunden)
kannst Du den mit 1024 Sinuswellen komplett beschreiben.

Wenn Du 20.000 Operatoren hast reicht das wenn Du die Phasenlage auch einstellen kannst um eine Sekunde Musik zu samplen
ohne daß Du die Operatoren noch irgendwie steuern müsstest, allein durch die Summierung der Töne.
Du hast dann praktisch einen Loop von einer Sekunde, dh die komplette Information davon,
auch wie sich die Musik in der Zeit ändert, wäre in den 20.000 Operatoren enthalten.
Der tiefste Ton wäre dann 1 Hz, nicht hörbar aber er würde einern Teil der Veränderung in der Musik ausmachen.

Das war jetzt wahrscheinlich keine gute Erklärung.
 
Schon sehr interessant, aber jetzt auch nichts wirklich Neues.

Der Sound... hmmm, naja - vor fast 20 Jahren hatte ich dieses Plex-Plugin von Wolfgang Palm, das ging klanglich in eine sehr ähnliche Richtung.
 
Nein.
Kein Morphing. Ist ein Sampleplayer und macht Crossfades. Kein eiziges Neuron drin.
Die Open-Source-Hardware hat auch nicht das große Touch-Display aus dem Video, sondern ein Touchpad und ein Briefmarken-Display, außerdem "Bring-Your-Own-Raspi".
Sounds berechnen muss man vorher auf einem anderen Rechner. Die wiederum können dann mit NSynth zwar so was wie Morph-Sounds sein, aber das hat seine klangliche Beliebigkeit bereits bewiesen, als es vor einiger Zeit vorgestellt wurde. Checkt es auf https://magenta.tensorflow.org selbst.
 
Ich versuchs,
es reichen 1024 Bänder (oder ein FFT von Größe 2048 ) um den Frequenzbereich von
21 Hz bis 22 kHz abzudecken, dh man kann den Hörbereich mit 1024 Sinusoperatoren "samplen".

Dh wenn Du einen Schnipsel Musik hast mit 1/21 Hz Dauer (also ca 0.05 Sekunden)
kannst Du den mit 1024 Sinuswellen komplett beschreiben.

Wenn Du 20.000 Operatoren hast reicht das wenn Du die Phasenlage auch einstellen kannst um eine Sekunde Musik zu samplen
ohne daß Du die Operatoren noch irgendwie steuern müsstest, allein durch die Summierung der Töne.
Du hast dann praktisch einen Loop von einer Sekunde, dh die komplette Information davon,
auch wie sich die Musik in der Zeit ändert, wäre in den 20.000 Operatoren enthalten.
Der tiefste Ton wäre dann 1 Hz, nicht hörbar aber er würde einern Teil der Veränderung in der Musik ausmachen.

Ok, interessant.

Aber das klingt mir sehr nach Analyse relativ statischer Klangereignisse - also LautstärkeDecay mit abnehmendem Obertongehalt (Klavier, Gitarre etc.).

Aber wie ist das mit 5 Sekunden Ausschnitt aus Orchestermusik, die gemorpht werden mit 5s brasilianischem Urwald - also Transienten, Tonartwechsel, multiple Schallereignisse?

Kann FFT sowas abdecken?
Additive Resynthese könnte das theoretisch (mit Multisegmenthüllkurven pro Sinusoperator) -
kann man ja mit Alchemy ganz gut ausprobieren (bis auf zu wenig Operatoren halt)...
 
Also wenn Du 5 Sekunden Musik hast, und 50 - 100.000 statische Sinusoszillatoren,
und die passend fest auf eine Lautstärke und eine Phase zueinander einstellst,
so daß jeder Sinusgenerator unendlich immer denselben Dauerton spielt, ohne jede Modulationen,
dann ergibt sich aus der Summe der statischen Oszillatoren/Dauertöne das Musikstück,
das sich alle 5 Sekunden wiederholt.

Und zwar absolut ununterscheidbar - 100% identisch - zum Original, mit allem was drin ist.
Da kann auch noch Knacksen und Rauschen vom Plattenspieler drin sein, oder auch ein Moment Stille,
das wird alles mit encoded.

Man kann jedes periodische Signal in statische Sinusschwingungn zerlegen die in der Summe
das Original abbilden - periodisch heißt hier nicht eine Monostimme,
sondern jedes noch so komplexe Signal, das sich an einem Punkt immer wiederholt.

Also eben zB ein beliebiges Sample im Loop.
Dabei ist die Summe der Sinusschwingungen 100% identisch mit dem Originalsignal.
Wie gesagt das ohne die Schwingungen irgendwie zu modulieren, sondern statische Dauertöne.

Wenn Du die Schwingungen modulieren darfst, reichen ein paar hundert Oszis,
je nach Klang auch unter 100 um den vollständig zu synthetisieren.
 
.. und die passend fest auf eine Lautstärke und eine Phase zueinander einstellst, so daß jeder Sinusgenerator unendlich immer denselben Dauerton spielt, ohne jede Modulationen,
dann ergibt sich aus der Summe der statischen Oszillatoren/Dauertöne das Musikstück,
das sich alle 5 Sekunden wiederholt.

Hää? Kapiere ich nicht. Bitte erkläre mir das noch mal anders, denn das verstehe ich nicht.

Denn wenn du da etwas aus einem Musikstück als Analysematerial nehmen würdest, dann ist doch eher keine Frequenz über den gesamten Zeitverlauf vorhanden, sondern nur ab und zu mal - sozusagen-, und dafür brauchts du dann doch ein Lautstärketracking der entsprechenden Frequenz für die Resynthese. Ohne dieses Lausträrketracking, also mit fester Lautstärke über den gesamten Zeitberlauf, würde da ja eher nur ein Klangbrei hörbar sein.

Oder meinst du das anders?
 
Zuletzt bearbeitet von einem Moderator:
Nein, durch Auslöschungen eng benachbarter Partialtöne würde eben dieser Lautstärkeverlauf exakt abgebildet. Voraussetzung ist, dass die Phasen "frei" sind (also nicht alle bei Null oder zufällig starten o.ä. ).
 
Aha. Danke für die Erklärung!

Wichtig ist eben, dass die Phasen und Magnituden aus dem Material gewonnen werden und unverändert in die Resynthese gehen - dann bekommst Du 1:1 das Original. Zeit- und Spektraldarstellung sind equivalent.

OT: Ein alter Trick ist es beispielsweise, die Phasen durch Zufall zu ersetzen - dann bekommst Du so eine Art glattgebügelten "Durchschnittssound", der zwar keine sinnvollen Informationen über die Zeitentwicklung (Rhythmen o.ä.) enthält, aber dafür immer noch die Gewichtung der Magnituden hat. Ähnlich einem gefreezten Hall, wenn es lang genug ist (ab >= 2 Sekunden hört man kaum noch den Single Cycle Charakter und es klingt sehr organisch). Ich hab mit sowas vor Jahren eine Wavetablesynthese gebaut und der PadSynth, welcher auch im ZynaddSubFX drin ist, arbeitet ähnlich.
 
Zuletzt bearbeitet:
Nur zum Besseren Verständnis für mich als Laien folgende Frage.
Das heisst also, daß bei der Nachbildung des zeitlichen Ablaufs eines Musikstückes/Klangereignisses die Phasenlagen möglichst zahlreicher Sinusschwingungen in Echtzeit dynamisch verändet wird?

Edit: wurde während meines Schreibens beantwortet...
 


News

Zurück
Oben