Jak właściwie wygląda przyszłość sztucznej inteligencji w muzyce?

Pod koniec kwietnia 2020 roku firma o nazwie OpenAI przesłała na SoundCloud dziesiątki nowych utworów, z których wszystkie nosiły tytuły takie jak „Hip-hop, w stylu Nas” lub „Pop, w stylu Katy Perry”. Można by wybaczyć, że początkowo pomyśleliście, że są to przeciętne covery z YouTube. Kilka sekund spędzonych na słuchaniu żarłocznej produkcji, dziwacznych tekstów i niesamowitych wokali z pewnością zmieni twoje zdanie.

Piosenki zostały stworzone przy użyciu oprogramowania sztucznej inteligencji o nazwie Jukebox, zaprojektowanego przez OpenAI, organizację badawczą wartą miliardy dolarów, wiodącą w dziedzinie badań nad AI. Jukebox nie jest standardowym wcieleniem Elvisa: Po przeszkoleniu na 1,2 miliona piosenek i innych danych o gatunkach i artystach, sieć neuronowa nauczyła się tworzyć oryginalną muzykę w niezapomnianym stylu znanych artystów, takich jak Elton John i Rihanna. Jest to nowatorska i imponująca technologia, model komputerowy, który zorientował się, jak generować rzeczywiste utwory, w tym wokale, w surowym audio.

Kiedy większość ludzi myśli o muzyce generowanej przez SI, prawdopodobnie przychodzi im na myśl coś takiego jak Jukebox – rozległa architektura kodu, która opanowała sztukę imitacji, tworząc muzykę, która mogłaby ożywić kariery dawno zmarłych artystów lub stworzyć nowe z zer i jedynek. To wyobrażenie może wyjaśniać, dlaczego kiedy OpenAI formalnie ogłosiło narzędzie pod koniec kwietnia, reakcje na Twitterze wahały się od „To niesamowita robota!”, przez „To jest zarówno niesamowicie fajne, jak i głęboko przeklęte”, aż po przepowiadające „Zastąpienie ludzkiego intelektu & kreatywnością z pewnością nadchodzi, cegła po cegle.”

„Uważam, że 'sztuczna inteligencja’… jest trochę niejasna”, mówi Holly Herndon podczas niedawnej rozmowy wideo ze swojego berlińskiego mieszkania. Herndon nie jest obca sztucznej inteligencji (ostatni album tej elektronicznej i avant-popowej muzyczki, PROTO, został stworzony przy pomocy rodzącej się sztucznej inteligencji, którą nazwała Spawn), ale Herndon uważa, że implikacje tego terminu – wszechwładzy robotów i ludzkiej przestarzałości – mistyfikują jego faktyczną funkcję w muzyce. Większość zautomatyzowanego tworzenia muzyki odbywa się poprzez uczenie maszynowe: szkolenie modelu, który analizuje istniejące utwory, identyfikuje wzorce z danych i wykorzystuje tę wiedzę do generowania własnej muzyki. Jest to obecnie powszechny proces, który nie wywołuje takiego samego dramatu sci-fi jak „AI”.”

„Uczenie maszynowe nie brzmi tak sexy ,” mówi Herndon, „ale opisuje to, co się dzieje. Maszyna się uczy. I uczy się od ludzkiej inteligencji.”

Jak to jest obecnie używane w nagłówkach gazet i dystopijnych wyobrażeniach, „AI” niesie ze sobą sensację, która sugeruje, że każdy nowy rozwój w muzyce przybliża nas do przyszłości robotów-gwiazd popu. Ale rzeczywistość muzyki AI jest zarówno mniej wspaniała, jak i mniej dystopijna. Po pierwsze, ona już tu jest – istnieje na różne sposoby, nadzorowana przez ludzi z różnymi celami i, jak zauważa Herndon, po cichu uczy się od nich, jak się zachowywać. Podczas gdy końcowe rezultaty mogą być techno-dystopijne, Herndon podkreśla, że nic nie jest ustalone na stałe; przyszłość AI w muzyce jest wciąż rzeźbiona, ścieżka kształtowana przez współpracę i konflikty pomiędzy dowolną liczbą zainteresowanych stron. „Myślę, że to, czego ludzie obawiają się w przypadku AI, to niekoniecznie technologia,” zastanawia się Herndon, ale raczej „piekielne społeczeństwo, które istoty ludzkie zbudują przy pomocy tej technologii.”

Gdy AI jest używana jako narzędzie do rozszerzania ludzkiej kreatywności, niekoniecznie jest zagrożeniem. Na PROTO, albumie, który pulsuje eksperymentami, ale pozostaje niezmiennie skupiony na człowieku, Herndon splata syntetyczną twórczość Spawn z rozległym zespołem chóralnym, aby stworzyć momenty głębokich emocji. Łącząc wyraźnie ludzkie i wyraźnie robotyczne w jedno, Herndon jest zarówno kuratorem, jak i reżyserem AI wraz z pozostałymi członkami zespołu; Spawn zapewnia momenty kreatywności i innowacyjnej muzykalności, ale to Herndon sprawuje kontrolę.

Muzycy, którzy eksperymentują z AI są czasami odrzucani jako sztuczki, pomimo uzasadnionych powodów artystycznych do współpracy z technologią. Kiedy zespół DADABOTS zajął drugie miejsce w konkursie AI Song Contest, który w tym roku zastąpił Eurowizję, użył sztucznej inteligencji wyszkolonej na podstawie przeglądu utworów acapella, pop, metal i inne z lat 50. Inne zespoły stworzyły piosenki przy użyciu maszyn wyszkolonych na podstawie odgłosów australijskich dzikich zwierząt i tekstów zaczerpniętych z wątków Reddita. Członek zespołu DADABOTS, CJ Carr, twierdzi, że uczenie maszynowe pozwala im przekształcać fantastyczne koncepcje i odległe inspiracje w rzeczywistą muzykę. Dzięki AI, „nasza zdolność do zbierania, produkowania muzyki i współpracy z dziesiątkami lub setkami artystów rozszerza się”, mówi Carr.

Ale to nie znaczy, że technologia jest gdziekolwiek blisko tworzenia (dobrej) muzyki na własną rękę. Kolega z zespołu Carra, Zack Zukowski, podkreśla, że ludzka interwencja była kluczowa dla ich sukcesu na AI Eurovision, mówiąc: „Traktowaliśmy AI tak, jakby była tylko kolejnym wykonawcą w naszym studiu.” Nawiasem mówiąc, zespół, który pozwolił AI przejąć inicjatywę, zajął ostatnie miejsce. Nawet jako największy ostatni przełom w automatycznym generowaniu muzyki, Jukebox wciąż ma oczywiste ograniczenia. Już we wczesnych próbkach widać, że narzędzie nie opanowało jeszcze struktury refrenu i często popada w zniekształcony krzyk. Na razie nie ma porównania między muzyką tworzoną przez człowieka a jej odpowiednikiem generowanym przez SI. Nawet gdyby istniało, nasze emocjonalne przywiązanie do ludzkich elementów muzyki sugeruje, że w najbliższym czasie raczej nie zrezygnujemy z muzyki tworzonej przez prawdziwych ludzi.

„Myślę, że to, czego ludzie obawiają się w przypadku AI, to niekoniecznie technologia, ale piekielne społeczeństwo, które istoty ludzkie zbudowałyby za pomocą tej technologii.”

Po co więc zawracać sobie głowę muzyką AI, skoro po prostu wlewamy niekończące się godziny i miliardy dolarów w maszynę, która może tylko słabo naśladować to, co ludzie już rozgryźli? Cóż, odpowiedź zależy od tego, kogo pytasz. Dla muzyków eksperymentalnych AI to sposób na tworzenie dźwięków, jakich nikt wcześniej nie słyszał. Niektórzy interesariusze mogą być zainteresowani tworzeniem piosenek za naciśnięciem jednego przycisku, unikając w ten sposób kosztów tantiem dla artystów. Inni kierują się wyłącznie innowacjami dla samych innowacji, wcielając w życie mantrę Facebooka: „działaj szybko i niszcz rzeczy”. Wielu innych wciąż nie jest przekonanych, że AI wnosi cokolwiek dobrego do tego, co w dużej mierze uważane jest za wrodzenie ludzką formę sztuki.

Dla optymistów, AI ma potencjał, aby wpasować się w narrację demokratyzacji muzyki. Stephen Phillips, dyrektor generalny Popgun, startupu z produktami obejmującymi aplikację, której dzieci mogą używać do tworzenia piosenek z AI, jest przekonany, że więcej ludzi zdolnych do eksperymentowania z dźwiękiem przyniesie tylko korzyści muzyce na dłuższą metę. „Naszą tezą stało się, że największym zastosowaniem AI w muzyce nie będzie zastąpienie muzyków, ale sprawienie, że każdy poczuje się jak muzyk” – mówi Phillips.

Technologie, które pomagają większej liczbie ludzi poczuć się jak muzycy, a może nawet zmienić koncepcję tego, kto liczy się jako muzyk, od dawna popychają muzykę do przodu, ułatwiając narodziny całych gatunków, od hip-hopu po techno. Warto zauważyć, że te technologie, które teraz są powszechnie chwalone jako ogromny wkład w rozwój branży, spotkały się z własnymi kontrowersjami w momencie ich wprowadzenia. Wokodery były oskarżane o niszczenie muzycznej integralności, automaty perkusyjne były potępiane jako substytut ludzkich perkusistów, a syntezatory były dyskredytowane jako bezduszne.

Prawdopodobnie niektóre z podobnych oporów wobec muzyki AI zanikną, gdy ustąpią miejsca zrozumieniu nowych możliwości muzycznych. Nawet wczesna technologia, taka jak fortepian, jak zauważa Żukowski, „dała Mozartowi możliwość posiadania cichych i głośnych nut”, rozszerzając nasze rozumienie tego, czym może być muzyka.

Jednakże byłoby głęboko naiwne sugerować, że ludzie tylko korzystają z tej technologii. Nawet jako osoba entuzjastycznie nastawiona do muzyki AI, Herndon jest zdenerwowana poważnym potencjałem AI do zranienia artystów, których dyskografie szkoli, muzyków, którzy skutecznie uczynili maszynę tym, czym jest. Uważa, że Jukebox skupia się na podszywaniu się pod artystów, do tego stopnia, że skontaktowała się z zespołem OpenAI ze swoimi obawami. „To bardzo uprawnione podejście do cudzej osobowości i danych,” powiedziała mi Herndon, „brać podobiznę artysty, trenować na niej, a następnie wypuszczać rzeczy w czyimś wizerunku bez jego zgody.”

Problem Herndon z Jukebox wiąże się z trudną kwestią własności intelektualnej, która nęka muzykę AI od samego początku (podobnie jak wcześniej sampling). Podczas gdy prawo do uczciwego wykorzystania nie powinno być lekko ograniczane, Herndon podkreśla, że rozwijająca się dziedzina prawa muzycznego AI będzie musiała uwzględniać wady systemowe, które wpływają zarówno na nasze algorytmy, jak i kontrolujących je ludzi. Biorąc pod uwagę szeroko dyskutowany problem uprzedzeń rasowych w technice oraz dobrze udokumentowaną historię przemysłu muzycznego, który nie wynagradza czarnoskórych muzyków, prawdopodobieństwo wystąpienia rasistowskiego efektu muzyki AI nie jest bez znaczenia. Herndon obawia się, że muzyka AI może wywołać efekt „przebijania w dół” zamiast „przebijania w górę”, gdzie wielkie firmy czerpią korzyści z łagodnych praw własności intelektualnej, podczas gdy niezależni muzycy pozostają bez wynagrodzenia i bez uznania.

„Wszystkie technologie dają ludziom władzę … i ta władza może być dana artystom. Ja biorę tę technologię i oddaję ją w ręce producentów, którzy mają coś do wyrażenia.”

Coś podobnego może się dziać w dziedzinach, które AI już spenetrowała. Michael Donaldson, który jest właścicielem firmy licencjonującej muzykę, powiedział mi, że w jego branży muzyka produkcyjna – podkłady muzyczne, które twórcy treści licencjonują do filmów, podcastów i innych mediów – jest coraz bardziej wylęgarnią rozwoju AI. Ponieważ większość muzyki produkcyjnej jest już dostosowana do przyjaznych twórcom metryk, takich jak „radosna” czy „korporacyjna”, ludzki produkt jest już wykonywany algorytmicznie. „Wszystko, co może być wykonane zgodnie ze specyfikacją, może być ostatecznie zrobione przez komputer” – mówi Donaldson.

Chociaż muzyka produkcyjna ma tendencję do bycia spisywaną na straty jako generyczna, niekreatywna praca, jest to jednak lukratywna dziedzina, która zapewnia pracę wielu profesjonalnym muzykom. Biorąc jednak pod uwagę, że AI generuje muzykę produkcyjną znacznie szybciej niż człowiek i wydaje się, że potrafi robić to równie dobrze, przejęcie tej branży nie jest nie do pomyślenia. „Phillips przewiduje, że jeśli AI nadal będzie się rozwijać, ta branża umrze. Nietrudno sobie wyobrazić, że technologia ta rozprzestrzeni się na inne obszary tworzenia muzyki: ścieżki dźwiękowe do filmów i toppery list przebojów.

Ale jeśli istnieje argument obalający możliwość przejęcia przez AI, jego najbardziej przekonującym założeniem może być to: Ludzie lubią muzykę, ponieważ inni ludzie ją tworzą. Nasza zdolność do odnoszenia się do siebie nawzajem, do poznania tego, co przemawia do nas w muzyce, jest czymś, czego AI nawet nie jest w stanie rozgryźć. „Nie wie, w jaki sposób, wiesz, ta jedna piosenka po prostu uderza w to lato” – mówi Herndon. „To wymaga ludzkiego mózgu i uszu.”

Na razie artyści, którzy pracują z uczeniem maszynowym, decydują się skupić na tym, jak mogą wykorzystać tę technologię do rozszerzenia, a nie zastąpienia własnych projektów twórczych. Kolejny projekt Herndona zakłada poważny upgrade Spawna. DADABOTS rozpoczyna inicjatywę przeciwko brutalności policji, wykorzystując Jukebox do wygenerowania setek wersji utworu „tha Police” zespołu N.W.A. w różnych gatunkach. Wybiorą 100 najlepszych do darmowego wydania i zorganizują konkurs remixów, muzyczny protest, który ma pomóc tym, którzy mają coś do powiedzenia, znaleźć nowe sposoby, aby to powiedzieć.

„Cała technologia daje ludziom władzę … i ta władza może być dana artystom”, mówi Carr. „Więc ją wykorzystujemy. Ja biorę tę technologię i oddaję ją w ręce producentów, którzy mają coś do wyrażenia.” Używana w ten sposób, AI umożliwia nowe współprace i wzmacnia nowe głosy, czyli właśnie te rzeczy, które czynią muzykę wspaniałą. A pomysł na zrobienie czegoś takiego, na wysłanie takiej wiadomości, w pierwszej kolejności? To jest całkowicie ludzkie przedsięwzięcie.