Malte Giesen: Latent diffusion with slop
für Ensemble mit Elektronik und Hochformat-Video
(2025)Interessanterweise nutzen KI-Modelle zur Generierung von Musik dieselbe Methode wie zur Erzeugung von Bildern: Die sogenannte latent diffusion. Hierbei wird, vereinfacht gesagt, einem Bild schrittweise Rauschen (sog. gaussian noise) hinzugefügt und das Modell lernt die unterschiedlichen Grade der Bild-»Verrauschung«–warum das nur eine starke Vereinfachung ist, wird weiter unten erläutert. Diesen Prozess kann das Modell nun auch umgekehrt vornehmen und aus reinem Rauschen nach bestimmten Vorgaben (Prompts) ein neues Bild erzeugen. Zur Erzeugung von Musik werden dabei Spektrogramme verwendet, die nach Erzeugung wieder in Klang umgewandelt werden können.
Mein neues Stück »Latent diffusion with slop« will diese Prozesse musikalisch-ästhetisch erfahrbar machen. Musikphilosophisch gesehen enthält akustisches weißes Rauschen ja sämtliche Musik, die jemals existiert hat und jemals existieren wird. Dass dieser Gedanke nun auch technisch tatsächlich als Prozess bei der Erzeugung von Musik im Grunde genauso funktioniert, fasziniert mich. Zentral bei der Verrauschung des Trainingsmaterials ist, dass nicht das reine Datenmaterial selbst verrauscht wird, sondern die Daten des sogenannten latent space, ein mathematischer vieldimensionaler Raum, bei dem bestimmte übergeordnete Eigenschaften und Bedeutungen als Punkte mit bestimmter Nähe oder Entfernung zueinander repräsentiert werden. »Hund« ist hier z.B. näher am »Wolf«, als am Meerschweinchen. Auf musikalischer Ebene bedeutet das, dass hier genuin musikalische Eigenschaften und Bedeutungen entsprechend angeordnet sind. Das heißt, eine Verrauschung der Musik würde nicht einfach bedeuten, dass dem Klang weißes Rauschen hinzugefügt wird–stattdessen findet das Rauschen in unterschiedlichsten Parametern der Musik statt: Rhythmus, Tonhöhe, Dynamik, Instrumentierung, Klangfarbe, Gestalt, Figuration, Harmonik, Metrum, Gattung, Genre… etc.
Insofern ist das Stück eine Fortspinnung algorithmischer Kompositionsprozesse und eine Art »neuronaler Variationssatz«. Die musikalischen Originalmaterialien sind hierbei Fragmente aus einem eigenen älteren Werk für ascolta (Tu M, 2014), relativ generischer Nu-Jazz, da die Ascolta-Besetzung sich dafür bestens anbietet, sowie diverse Glitch/Noise-Fragmente, die aus fehlerhaften Outputs verschiedener generativer Audio-Modelle stammen.
Da die Diffusionsmethode zunächst für Bilder angewendet wurde, inzwischen auch für Video, wollte ich die visuelle Ebene wieder in das Ensemble integrieren. Der zweite Teil des Titels »… with slop« gibt einen Hinweis darauf, in welcher Richtung es geht. Seit der weiten Verbreitung generativer KIs wird das Netz geflutet mit AI slop–mit schlechten/schlampig erstellten Bildern und Videos, die aber in Sekunden und in Massen erzeugt werden können und die ohnehin inflationäre Bilderflut im Netz nochmal in andere Dimensionen befördert haben. Die »Dead Internet Theorie« scheint in Kürze real zu werden. Da der Großteil dieses Slops auf Smartphones gesehen wird, ist das Video im Hochformat per TV ins Ensemble integriert, als zusätzlicher visueller Mitspieler quasi gleichberechtigt neben den auf der Bühne spielenden Musikern.
Das Bildmaterial hier sind viral gegangene AI-ASMR Videos von geschnittenen Glasfrüchten, die quasi schärfer als die Realität, hyperästhetisch und hyperglatt sind, und im weiteren Verlauf von ebenso hochglänzend inszenierten Musikinstrumenten der Ascolta-Besetzung. Diese kurzen Videofragmente interagieren mit dem Ensembleklang, wirken als Kontrapunkt oder Impulsgeber, als visuelle Unterteiler der musikalischen Form und als Erweiterungen der elektronischen Mittel.
(Malte Giesen)