A mesterséges intelligencia zene már itt van. Mi jön ezután?

január 13, 2022

2020 áprilisának végén az OpenAI nevű cég több tucat új zeneszámot töltött fel a SoundCloudra, amelyek mindegyike tárgyilagos címet kapott, például “Hip-hop, Nas stílusában” vagy “Pop, Katy Perry stílusában”. Megbocsátható lenne, ha eleinte azt gondolnánk, hogy a dalok átlagos YouTube-borítások. Néhány másodperc a gurgulázó produkció, a bizarr szövegek és a hátborzongató vokálok hallgatása után azonban biztosan megváltoztatja a véleményét.

A dalok mindegyike a Jukebox nevű mesterséges intelligencia szoftver segítségével készült, amelyet az OpenAI, egy milliárdos költségvetésű, a mesterséges intelligencia kutatásában élen járó kutatószervezet tervezett. A Jukebox nem egy átlagos Elvis-imitátor: Miután a neurális hálót 1,2 millió dallal és más, műfajokra és művészekre vonatkozó adatokkal betanították, megtanult eredeti zenét előállítani olyan híres előadók, mint Elton John és Rihanna megdöbbentően felismerhető stílusában. Ez egy újszerű és lenyűgöző technológia, egy számítógépes modell, amely rájött, hogyan generáljon valódi dalokat, beleértve az énekhangot is, nyers hanganyagból.

Amikor a legtöbb embernek az AI által generált zene jut eszébe, valószínűleg valami olyasmi jut eszébe, mint a Jukebox – egy terjedelmes kódarchitektúra, amely elsajátítja az utánzás művészetét, és olyan zenét hoz létre, amely képes feléleszteni rég halott művészek karrierjét, vagy újakat teremteni nullákból és egyesekből. Ez a képi világ talán megmagyarázza, hogy amikor az OpenAI április végén hivatalosan bejelentette az eszközt, a Twitter-reakciók a “Ez elképesztő munka!”, a “ez egyszerre hihetetlenül menő és mélyen átkozott” és az előjelző “Az emberi értelem & kreativitás helyettesítése biztosan megérkezik, tégláról téglára.”

“A “mesterséges intelligenciát”… egy kicsit homályosnak találom” – mondja Holly Herndon egy nemrég lezajlott videochat során berlini lakásából. Nem idegen tőle az AI (az elektronikus és avant-pop zenész legutóbbi albuma, a PROTO egy születőben lévő AI-val készült, amelyet Spawnnak nevezett el), Herndon úgy gondolja, hogy a kifejezés terhelt implikációi – a robot urak és az ember elavulása – misztifikálják a tényleges funkcióját a zenében. A legtöbb automatizált zenei alkotás gépi tanulással történik: egy modell kiképzése a meglévő dalok elemzésére, a minták azonosítása az adatokból, és ennek a tudásnak a felhasználása saját zene létrehozására. Ez egy ma már elterjedt folyamat, amely aligha idézi fel ugyanazt a sci-fi drámát, mint az “AI”.”

“A gépi tanulás nem hangzik olyan szexisen”, mondja Herndon, “de leírja, mi történik. Egy gép tanul. És az emberi intelligenciától tanul.”

Mivel jelenleg a szalagcímekben és a disztópikus képzelgésekben használják, az “AI” olyan szenzációt hordoz magában, amely azt sugallja, hogy minden új zenei fejlesztés közelebb visz minket a robot popsztárok jövőjéhez. Az AI-zene valósága azonban ennél kevésbé elbűvölő és kevésbé disztópikus. Egyrészt már itt van – különböző módokon létezik, különböző célokkal rendelkező emberek felügyelik, és ahogy Herndon rámutat, csendben tanul tőlük, hogyan kell viselkedni. Bár a végeredmény lehet technológiai disztópia, Herndon rámutat, hogy semmi sincs kőbe vésve; a mesterséges intelligencia jövője a zenében még csak most körvonalazódik, az utat számos érdekelt fél együttműködése és konfliktusa alakítja. “Azt hiszem, az emberek nem feltétlenül a technológiától tartanak az AI-val kapcsolatban” – gondolkodik Herndon -, hanem “inkább attól a pokoli társadalomtól, amelyet az emberek ezzel a technológiával építenének.”

Ha az AI-t az emberi kreativitás kiterjesztésének eszközeként használják, nem feltétlenül jelent fenyegetést. A PROTO albumon, amely kísérletezéstől lüktet, mégis szilárdan emberközpontú marad, Herndon a Spawn szintetikus kimenetét egy elsöprő kórusegyüttessel fonja össze, hogy mély érzelmekkel teli pillanatokat teremtsen. A határozottan emberi és a határozottan robotikus elemeket egybeolvasztva Herndon egyszerre kurátorkodik és irányítja az AI-t a többi zenésztárssal együtt; a Spawn kreatív és innovatív zeneiségű pillanatokat biztosít, de az irányítás Herndon kezében van.

Az AI-val kísérletező zenészeket néha trükközésnek minősítik, annak ellenére, hogy a technológiával való együttműködésnek jogos művészi okai vannak. Amikor a hackathon-csapatból lett DADABOTS zenekar idén második lett az Eurovíziót felváltó mesterséges intelligencia dalversenyen, az 1950-es évek acapella, pop, metál és egyéb dalok felmérésén betanított AI-t használtak. Más csapatok ausztrál vadon élő állatok hangjain és Reddit-fonalakból vett szövegeken képzett gépekkel készítettek dalokat. CJ Carr, a DADABOTS tagja szerint a gépi tanulás lehetővé teszi számukra, hogy fantasztikus koncepciókat és erőltetett inspirációkat pörgessenek át tényleges zenévé. A mesterséges intelligenciával “kibővül a képességünk arra, hogy zenét gyűjtsünk, termeljünk, és együttműködjünk több tucat vagy több száz művésszel” – mondja Carr.

De ez nem jelenti azt, hogy a technológia önmagában közel sem képes (jó) zenét létrehozni. Carr bandatársa, Zack Zukowski hangsúlyozza, hogy az emberi beavatkozás döntő fontosságú volt az AI Eurovízión elért sikerükhöz: “Úgy kezeltük az AI-t, mintha csak egy újabb előadó lenne a stúdiónkban”. Egyébként az a csapat, amelyik hagyta, hogy az AI átvegye a vezetést, az utolsó helyet szerezte meg. Még ha a Jukebox a közelmúlt legnagyobb áttörése is az automatizált zenei generálás terén, még mindig nyilvánvaló korlátokkal rendelkezik. A korai mintákból világosan látszik, hogy az eszköz még nem jött rá a kórusszerkezetekre, és gyakran torz sikolyokba torkollik. Egyelőre nem lehet összehasonlítani az ember által készített zenét és a mesterséges intelligencia által generált megfelelőjét. Még ha lenne is, a zene emberi elemeihez való érzelmi kötődésünk azt sugallja, hogy nem valószínű, hogy egyhamar lemondanánk a valódi emberek által készített zenéről.

“Azt hiszem, az emberek nem feltétlenül a technológiától félnek az AI-val kapcsolatban, hanem attól a pokoli társadalomtól, amit az emberek építenének ezzel a technológiával.”

Szóval minek foglalkozni az AI zenével, ha csak végtelen órákat és dollármilliárdokat ölünk egy olyan gépbe, amely csak gyengén tudja utánozni azt, amit az emberek már kitaláltak? Nos, a válasz attól függ, kit kérdezel. A kísérleti zenészek számára a mesterséges intelligencia olyan hangok előállításának módja, amilyeneket még senki sem hallott. Míg egyes érdekeltek abban lehetnek érdekeltek, hogy egy gombnyomással dalok szülessenek, elkerülve ezzel a művészek jogdíjainak költségeit. Másokat pusztán az innováció az innováció kedvéért hajt, és a Facebook mantrája, a “move fast and break things” (mozogj gyorsan és törj össze dolgokat) szerint. Sokan mások még mindig nincsenek meggyőződve arról, hogy a mesterséges intelligencia bármi jóval hozzájárulna ahhoz, amit nagyrészt eredendően emberi művészeti formának tartanak.

Az optimisták számára a mesterséges intelligencia potenciálisan beleillik a zene demokratizálásának narratívájába. Stephen Phillips, a Popgun nevű startup cég vezérigazgatója, amelynek termékei között szerepel egy olyan alkalmazás, amellyel a gyerekek AI segítségével dalokat készíthetnek, biztos abban, hogy az, hogy több ember kísérletezhet a hangokkal, hosszú távon csak előnyös lesz a zenének. “A mi tézisünk az lett, hogy a mesterséges intelligencia legnagyobb alkalmazása a zenében nem a zenészek helyettesítése lesz, hanem az, hogy mindenki zenésznek érezze magát” – mondja Phillips.

Az olyan technológiák, amelyek segítenek több embernek abban, hogy zenésznek érezze magát, és talán még azt is megváltoztatják, hogy ki számít zenésznek, már régóta előremozdítják a zenét, és egész műfajok születését segítik elő, a hip-hoptól a technóig. Érdemes megjegyezni, hogy ezek a technológiák, amelyeket ma már nagyrészt az iparághoz való óriási hozzájárulásként dicsérnek, bevezetésük idején saját visszásságokkal szembesültek. A vokodereket a zenei integritás megrontásával vádolták, a dobgépeket az emberi dobosok helyettesítésére, a szintetizátorokat pedig lélektelennek minősítették.

Talán a mesterséges intelligenciával szembeni hasonló ellenállás egy része elhalványul, amint utat enged az új zenei lehetőségek megértésének. Zukowski rámutat, hogy már a korai technológia, mint például a zongora, “megadta Mozartnak azt a képességet, hogy halk és hangos hangok is legyenek”, ami kibővítette a zenéről alkotott elképzeléseinket.

Mégis mélységesen naiv lenne azt állítani, hogy az emberek csak hasznot húznak ebből a technológiából. Még olyan emberként is, aki lelkesedik az AI zenéért, Herndon ideges attól, hogy az AI komolyan árthat azoknak a művészeknek, akiknek a diszkográfiáján edződik, azoknak a zenészeknek, akik gyakorlatilag azzá tették a gépet, ami. Aggasztónak találta, hogy a Jukebox a megszemélyesítésre összpontosít, olyannyira, hogy aggodalmával felvette a kapcsolatot az OpenAI csapatával. “Ez egy nagyon jogos megközelítés más emberek személyiségéhez és adataihoz” – mondta nekem Herndon – “hogy egy művész képmását veszik, ezen edzenek, majd az engedélyük nélkül kiadnak dolgokat valaki más képmásával.”

Herndon problémája a Jukeboxszal a szellemi tulajdon kényes kérdését érinti, amely a kezdetektől fogva sújtja a mesterséges intelligencia zenét (és az azt megelőző samplinget is). Bár a tisztességes felhasználáshoz való jogot nem szabad könnyelműen korlátozni, Herndon hangsúlyozza, hogy az AI zenei jog fejlődő területének figyelembe kell vennie azokat a rendszerszintű hibákat, amelyek mind az algoritmusainkat, mind az azokat irányító embereket befolyásolják. Tekintettel a technológia sokat tárgyalt faji elfogultsági problémáira és a zeneipar jól dokumentált történelmére a fekete zenészek alulfizetésével kapcsolatban, nem elhanyagolható a valószínűsége annak, hogy az AI-zene faji jellegű hatást vált ki. Herndon attól tart, hogy a mesterséges intelligencia-zene inkább “lefelé ütő”, mint “felfelé ütő” hatást eredményezhet, ahol a nagyvállalatok élvezik a laza szellemi tulajdonjogi törvények előnyeit, miközben a független zenészek fizetés nélkül és elismerés nélkül maradnak.

“Minden technológia hatalmat ad az embereknek … és ezt a hatalmat át lehet adni a művészeknek. Fogom ezt a technológiát, és olyan producerek kezébe adom, akiknek van mit kifejezniük.”

Valami ilyesmi történhet azokon a területeken, ahová a mesterséges intelligencia már behatolt. Michael Donaldson, aki egy zenei licencelő cég tulajdonosa, elmondta, hogy az ő iparágában a produkciós zene – a háttérzenék, amelyeket a tartalomkészítők videókhoz, podcastokhoz és más médiumokhoz licencelnek – egyre inkább az AI-fejlesztés táptalaja. Mivel a legtöbb produkciós zenét már olyan alkotóbarát mérőszámokra szabják, mint a “vidám” vagy a “vállalati”, az emberi termék már algoritmikusan készül. “Bármit, ami specifikáció szerint elkészíthető, előbb-utóbb egy számítógép is meg tudja csinálni” – mondja Donaldson.

Bár a produkciós zenét hajlamosak vagyunk általános, kreativitást nélkülöző munkaként leírni, mégis jövedelmező terület, amely sok hivatásos zenésznek ad munkát. De tekintve, hogy a mesterséges intelligencia sokkal gyorsabban generál produkciós zenét, mint az ember, és látszólag ugyanolyan jól tudja csinálni, egy esetleges átvétel nem elképzelhetetlen. “Ez az iparág halott” – jósolja Phillips, ha a mesterséges intelligencia tovább tart. Nem túlzás elképzelni, hogy a technológia végül a zenei alkotás más területeire is átterjed: filmzenékre és listavezetőkre.

De ha van olyan érv, amely cáfolja az AI hatalomátvételének lehetőségét, akkor a legmeggyőzőbb tétele talán ez lehet: Az emberek azért szeretik a zenét, mert más emberek csinálják. Az a képességünk, hogy kapcsolódjunk egymáshoz, hogy tudjuk, mi szólítja meg egymást a zenében, olyasmi, amit az AI még csak a közelében sem jár annak, hogy kitaláljon. “Nem tudja, hogy, tudod, az az egy dal hogyan találja el azt a nyarat” – mondja Herndon. “Ehhez emberi agy és fül kell.”

Egyelőre a gépi tanulással dolgozó művészek inkább arra koncentrálnak, hogy hogyan tudják ezt a technológiát saját kreatív projektjeik kiegészítésére használni, nem pedig helyettesítésére. Herndon következő projektje egy komoly Spawn-frissítést foglal magában. A DADABOTS egy kezdeményezést indít a rendőri brutalitás ellen a Jukebox segítségével, amely az N.W.A. ” tha Police” című dalának több száz változatát generálja különböző műfajokban. A legjobb 100-at ingyenesen kiadják, és remixversenyt rendeznek, egy zenei tiltakozást, amelynek célja, hogy segítsen azoknak, akiknek mondanivalójuk van, új utakat találni, hogy elmondhassák azt.

“Minden technológia hatalmat ad az embereknek… és ezt a hatalmat át lehet adni a művészeknek” – mondja Carr. “Szóval mi élünk vele. Fogom ezt a technológiát, és olyan producerek kezébe adom, akiknek van mit kifejezniük.” Így használva a mesterséges intelligencia új együttműködéseket tesz lehetővé és új hangokat erősít fel, éppen azokat a dolgokat, amelyek a zenét naggyá teszik. És az ötlet, hogy egyáltalán ilyesmit tegyünk, hogy ilyen üzenetet küldjünk? Ez egy teljesen emberi törekvés.

Savage Rose

Milyen lesz valójában a mesterséges intelligencia jövője a zenében?

Vélemény, hozzászólás? Kilépés a válaszból