Wie sieht die Zukunft der künstlichen Intelligenz in der Musik tatsächlich aus?

Ende April 2020 lud ein Unternehmen namens OpenAI Dutzende neuer Tracks auf SoundCloud hoch, alle mit nüchternen Titeln wie „Hip-Hop, im Stil von Nas“ oder „Pop, im Stil von Katy Perry“. Auf den ersten Blick könnte man meinen, es handele sich um durchschnittliche YouTube-Cover. Ein paar Sekunden, in denen man sich die gurgelnde Produktion, die bizarren Texte und den unheimlichen Gesang anhört, werden einen definitiv eines Besseren belehren.

Die Songs wurden alle mit einer Software für künstliche Intelligenz namens Jukebox erstellt, die von OpenAI entwickelt wurde, einer milliardenschweren Forschungsorganisation, die auf dem Gebiet der KI-Forschung führend ist. Jukebox ist kein gewöhnlicher Elvis-Imitator: Nach einem Training mit 1,2 Millionen Liedern und anderen Daten über Genres und Künstler hat das neuronale Netz gelernt, Originalmusik im unheimlich wiedererkennbaren Stil von berühmten Künstlern wie Elton John und Rihanna zu produzieren. Es handelt sich um eine neuartige und beeindruckende Technologie, ein Computermodell, das herausgefunden hat, wie man tatsächliche Songs, einschließlich des Gesangs, in Roh-Audio generiert.

Wenn die meisten Menschen an KI-generierte Musik denken, kommt ihnen wahrscheinlich etwas wie Jukebox in den Sinn – eine ausufernde Code-Architektur, die die Kunst der Imitation beherrscht und Musik erzeugt, die die Karrieren längst verstorbener Künstler wiederbeleben oder aus Nullen und Einsen neue schaffen könnte. Diese Bilder könnten erklären, warum, als OpenAI das Tool Ende April offiziell ankündigte, die Reaktionen auf Twitter von „Das ist eine erstaunliche Arbeit!“ über „Das ist sowohl unglaublich cool als auch zutiefst verflucht“ bis hin zu der Vorahnung „Der Ersatz des menschlichen Intellekts & Kreativität kommt sicher, Stein für Stein.“

„Ich finde ‚künstliche Intelligenz’… ein bisschen verwirrend“, sagt Holly Herndon während eines kürzlichen Video-Chats von ihrer Berliner Wohnung aus. Der Elektronik- und Avant-Pop-Musikerin ist KI nicht fremd (ihr jüngstes Album PROTO wurde mit einer neu entstehenden KI namens Spawn produziert), aber Herndon ist der Meinung, dass die belastenden Implikationen des Begriffs – die Vorstellung von übermächtigen Robotern und der Überflüssigkeit des Menschen – seine tatsächliche Funktion in der Musik verschleiern. Die meisten automatisierten Musikkreationen entstehen durch maschinelles Lernen: Ein Modell wird darauf trainiert, vorhandene Songs zu analysieren, aus den Daten Muster zu erkennen und dieses Wissen zu nutzen, um eigene Musik zu erzeugen. Das ist ein heute üblicher Prozess, der kaum das gleiche Sci-Fi-Drama hervorruft wie „AI“.

„Maschinelles Lernen klingt nicht so sexy“, sagt Herndon, „aber es beschreibt, was passiert. Eine Maschine lernt. Und sie lernt von der menschlichen Intelligenz.“

Der Begriff „KI“, wie er derzeit in Schlagzeilen und dystopischen Vorstellungen verwendet wird, ist mit einer Sensationslust verbunden, die suggeriert, dass jede neue Entwicklung in der Musik uns einer Zukunft mit Roboter-Popstars näher bringt. Doch die Realität der KI-Musik ist sowohl weniger glamourös als auch weniger dystopisch als das. Zum einen gibt es sie bereits – in verschiedenen Formen, beaufsichtigt von Menschen mit unterschiedlichen Zielen, und, wie Herndon betont, sie lernt im Stillen von ihnen, wie sie sich zu verhalten hat. Während die Endergebnisse technisch-dystopisch sein könnten, weist Herndon darauf hin, dass nichts in Stein gemeißelt ist; die Zukunft der KI in der Musik ist noch im Entstehen begriffen, ein Weg, der durch die Zusammenarbeit und den Konflikt zwischen einer beliebigen Anzahl von Interessengruppen geformt wird. „Ich glaube, was die Leute bei der KI fürchten, ist nicht unbedingt die Technologie“, sinniert Herndon, sondern eher „die Höllengesellschaft, die die Menschen mit dieser Technologie aufbauen würden.“

Wenn sie als Mittel zur Erweiterung der menschlichen Kreativität eingesetzt wird, ist KI nicht unbedingt eine Bedrohung. Auf PROTO, einem Album, das vor Experimentierfreude nur so strotzt, aber dennoch den Menschen in den Mittelpunkt stellt, verwebt Herndon Spawns synthetischen Output mit einem mitreißenden Chorensemble, um Momente tiefer Emotionen zu schaffen. Spawn sorgt für Momente der Kreativität und innovativen Musikalität, aber Herndon ist derjenige, der die Kontrolle hat.

Musiker, die mit künstlicher Intelligenz experimentieren, werden manchmal als Spielerei abgetan, obwohl es berechtigte künstlerische Gründe für die Zusammenarbeit mit der Technologie gibt. Als die Band DADABOTS, die aus einem Hackathon-Team hervorging, beim diesjährigen KI-Songcontest, der den Eurovision Song Contest ersetzte, den zweiten Platz belegte, setzte sie eine KI ein, die auf der Grundlage von Acapella-, Pop- und Metal-Songs der 1950er Jahre trainiert wurde. Andere Teams produzierten Songs mit Maschinen, die auf Geräusche australischer Wildtiere und Texte aus Reddit-Threads trainiert wurden. DADABOTS-Mitglied CJ Carr sagt, dass maschinelles Lernen es ihnen ermöglicht, fantastische Konzepte und weit hergeholte Inspirationen in tatsächliche Musik zu verwandeln. Mit der KI „erweitert sich unsere Fähigkeit, Musik zu sammeln, zu produzieren und mit Dutzenden oder Hunderten von Künstlern zusammenzuarbeiten“, sagt Carr.

Das bedeutet aber nicht, dass die Technologie auch nur annähernd in der Lage ist, selbst (gute) Musik zu machen. Carrs Bandkollege Zack Zukowski betont, dass menschliches Eingreifen für ihren Erfolg bei der KI-Eurovision entscheidend war: „Wir haben die KI behandelt, als wäre sie nur ein weiterer Künstler in unserem Studio.“ Das Team, das der KI die Führung überließ, belegte übrigens den letzten Platz. Auch wenn es sich bei Jukebox um den größten Durchbruch bei der automatischen Musikgenerierung der letzten Zeit handelt, hat es doch offensichtliche Grenzen. In den ersten Samples wird deutlich, dass das Tool Refrainstrukturen noch nicht verstanden hat und oft in verzerrtes Geschrei abgleitet. Im Moment gibt es keinen Vergleich zwischen von Menschen gemachter Musik und ihrem KI-generierten Gegenstück. Selbst wenn es einen gäbe, würde unsere emotionale Bindung an die menschlichen Elemente in der Musik darauf hindeuten, dass wir in absehbarer Zeit wohl kaum auf Musik verzichten würden, die von echten Menschen gemacht wurde.

„Ich glaube, was die Menschen bei der KI fürchten, ist nicht unbedingt die Technologie, sondern die Höllengesellschaft, die Menschen mit dieser Technologie aufbauen würden.“

Warum sich also mit KI-Musik beschäftigen, wenn wir nur endlose Stunden und Milliarden von Dollar in eine Maschine stecken, die nur schlecht nachahmen kann, was Menschen bereits herausgefunden haben? Nun, die Antwort hängt davon ab, wen Sie fragen. Für experimentierfreudige Musiker ist die KI eine Möglichkeit, Klänge zu erzeugen, die man noch nie zuvor gehört hat. Während einige Interessengruppen daran interessiert sind, Songs auf Knopfdruck zu produzieren, um so die Kosten für die Tantiemen der Künstler zu vermeiden. Andere wiederum sind nur an Innovation um der Innovation willen interessiert, ganz nach dem Facebook-Mantra „schnell sein und etwas verändern“. Viele andere sind immer noch nicht davon überzeugt, dass KI irgendetwas Gutes zu dem beiträgt, was größtenteils als eine von Natur aus menschliche Kunstform angesehen wird.

Für die Optimisten hat KI das Potenzial, sich in eine Erzählung über die Demokratisierung der Musik einzufügen. Stephen Phillips, CEO von Popgun, einem Startup, zu dessen Produkten auch eine App gehört, mit der Kinder mit Hilfe von KI Songs erstellen können, ist zuversichtlich, dass die Möglichkeit für mehr Menschen, mit Klängen zu experimentieren, der Musik langfristig nur zugute kommen wird. „Unsere These ist, dass die größte Anwendung von KI in der Musik nicht darin besteht, Musiker zu ersetzen, sondern dafür zu sorgen, dass sich jeder wie ein Musiker fühlt“, sagt Phillips.

Technologien, die dazu beitragen, dass sich mehr Menschen wie Musiker fühlen, und vielleicht sogar die Vorstellung davon verändern, wer als Musiker zählt, haben die Musik seit langem vorangebracht und die Entstehung ganzer Genres, von Hip-Hop bis Techno, ermöglicht. Es ist erwähnenswert, dass diese Technologien, die heute größtenteils als enormer Beitrag zur Musikindustrie gelobt werden, zur Zeit ihrer Einführung mit Gegenreaktionen konfrontiert waren. Vocoder wurden beschuldigt, die musikalische Integrität zu zerstören, Drumcomputer wurden als Ersatz für menschliche Schlagzeuger beklagt, und Synthesizer wurden als seelenlos verunglimpft.

Vielleicht wird ein Teil des ähnlichen Widerstands gegen KI-Musik schwinden, wenn er dem Verständnis für neue musikalische Möglichkeiten weicht. Selbst frühe Technologien wie das Klavier, so Zukowski, „gaben Mozart die Möglichkeit, leise und laute Töne zu spielen“, und erweiterten damit unser Verständnis von Musik.

Doch es wäre zutiefst naiv anzunehmen, dass der Mensch nur von dieser Technologie profitiert. Selbst als jemand, der sich für KI-Musik begeistert, ist Herndon besorgt über das ernsthafte Potenzial der KI, genau den Künstlern zu schaden, auf deren Diskografie sie trainiert, den Musikern, die die Maschine zu dem gemacht haben, was sie ist. Sie fand Jukebox‘ Fokus auf Imitationen alarmierend, so dass sie sich mit ihren Bedenken an das OpenAI-Team wandte. „Es ist ein sehr anmaßendes Herangehen an die Persönlichkeit und die Daten anderer Leute“, sagt Herndon, „das Bild eines Künstlers zu nehmen, darauf zu trainieren und dann Dinge im Bild eines anderen ohne dessen Erlaubnis zu veröffentlichen.“

Herndons Problem mit Jukebox betrifft eine heikle Frage des geistigen Eigentums, die KI-Musik von Anfang an plagte (wie auch Sampling davor). Während das Recht auf faire Nutzung nicht leichtfertig eingeschränkt werden sollte, betont Herndon, dass das sich entwickelnde Feld des KI-Musikrechts die systemischen Fehler berücksichtigen muss, die sowohl unsere Algorithmen als auch die Menschen, die sie kontrollieren, beeinflussen. In Anbetracht der viel diskutierten Probleme der rassistischen Voreingenommenheit in der Technik und der gut dokumentierten Geschichte der Unterbezahlung schwarzer Musiker durch die Musikindustrie ist die Wahrscheinlichkeit eines rassistischen Effekts von KI-Musik nicht unerheblich. Herndon befürchtet, dass KI-Musik eher einen „Punching-Down“- als einen „Punching-Up“-Effekt hervorrufen könnte, bei dem große Unternehmen von den laxen Gesetzen zum geistigen Eigentum profitieren, während unabhängige Musiker unbezahlt und unerkannt bleiben.

„Jede Technologie gibt den Menschen Macht … und diese Macht kann den Künstlern gegeben werden. Ich nehme diese Technologie und lege sie in die Hände von Produzenten, die etwas auszudrücken haben.“

In den Bereichen, in die die KI bereits vorgedrungen ist, könnte etwas Ähnliches geschehen. Michael Donaldson, Inhaber eines Unternehmens für Musiklizenzen, sagte mir, dass in seiner Branche die Produktionsmusik – die Hintergrundmusik, die Produzenten für Videos, Podcasts und andere Medien lizenzieren – zunehmend ein Nährboden für die Entwicklung von KI ist. Da die meiste Produktionsmusik bereits auf kreativitätsfreundliche Metriken wie „Happy“ oder „Corporate“ zugeschnitten ist, wird das menschliche Produkt bereits algorithmisch erstellt. „Alles, was nach Vorgaben gemacht werden kann, kann schließlich auch von einem Computer erledigt werden“, sagt Donaldson.

Obwohl die Musikproduktion oft als generische, unkreative Arbeit abgetan wird, ist sie dennoch ein lukrativer Bereich, der vielen professionellen Musikern Arbeit bietet. Angesichts der Tatsache, dass künstliche Intelligenz Musikproduktionen viel schneller als der Mensch erstellt und scheinbar genauso gut kann, ist eine mögliche Übernahme nicht unvorstellbar. „Diese Branche ist tot“, prophezeit Phillips, wenn sich die KI weiter durchsetzt. Es ist nicht abwegig, sich vorzustellen, dass sich die Technologie schließlich auch auf andere Bereiche der Musikproduktion ausbreitet: Filmmusik und Chartstürmer.

Wenn es jedoch ein Argument gibt, das die Möglichkeit einer Übernahme durch die KI widerlegt, dann ist es wohl dieses: Wir Menschen mögen Musik, weil andere Menschen sie machen. Unsere Fähigkeit, miteinander in Beziehung zu treten, zu wissen, was uns in der Musik anspricht, ist etwas, das die KI nicht einmal annähernd herausfinden kann. „Sie weiß nicht, wie dieser eine Song im Sommer ankommt“, sagt Herndon. „Dazu braucht man ein menschliches Gehirn und Ohren.“

Im Moment konzentrieren sich die Künstler, die mit maschinellem Lernen arbeiten, darauf, wie sie diese Technologie nutzen können, um ihre eigenen kreativen Projekte zu ergänzen, anstatt sie zu ersetzen. Herndons nächstes Projekt beinhaltet ein ernsthaftes Spawn-Upgrade. DADABOTS startet eine Initiative gegen Polizeibrutalität und nutzt Jukebox, um Hunderte von Versionen von N.W.A.’s „tha Police“ in verschiedenen Genres zu erstellen. Sie werden die besten 100 für eine kostenlose Veröffentlichung auswählen und einen Remix-Wettbewerb veranstalten, ein musikalischer Protest, der denjenigen, die etwas zu sagen haben, helfen soll, neue Wege zu finden, es zu sagen.

„Jede Technologie gibt den Menschen Macht … und diese Macht kann den Künstlern gegeben werden“, sagt Carr. „Also nehmen wir sie. Ich nehme diese Technologie und lege sie in die Hände von Produzenten, die etwas ausdrücken wollen.“ Auf diese Weise ermöglicht KI neue Kollaborationen und verstärkt neue Stimmen – genau das, was Musik großartig macht. Und die Idee, so etwas zu tun, eine solche Botschaft zu senden, überhaupt erst? Das ist ein ganz und gar menschliches Unterfangen.