Clonează o voce în cinci secunde cu acest set de instrumente de inteligență artificială

Clonarea unei voci necesită, de obicei, colectarea de ore de discursuri înregistrate pentru a construi un set de date, apoi utilizarea setului de date pentru a antrena un nou model de voce. Dar nu mai este cazul. Un nou proiect Github introduce un remarcabil Real-Time Voice Cloning Toolbox care permite oricui să cloneze o voce din doar cinci secunde de eșantion audio.

Acest depozit Github a fost deschis în luna iunie a acestui an ca o implementare a lucrării Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) cu un vocoder care funcționează în timp real. Proiectul a fost dezvoltat de Corentin Jemine, care a obținut un masterat în știința datelor la Universitatea din Liège și lucrează ca inginer de învățare automată la Resemble AI din Toronto.

Utilizatorii introduc un scurt eșantion de voce, iar modelul – antrenat doar în timpul redării – poate furniza imediat enunțuri text-to-speech în stilul vocii eșantionate. Proiectul a primit recenzii foarte bune și a obținut peste 6.000 de stele GitHub și 700 de furci.

Interfața inițială a setului de instrumente SV2TTS este prezentată mai jos. Utilizatorii pot reda un fișier audio de voce de aproximativ cinci secunde selectat aleatoriu din setul de date sau pot folosi propriul lor clip audio.

O spectrogramă melodioasă și încorporările corespunzătoare ale enunțului vor fi generate după ce se va face clic pe butonul „load”.

Deși un singur eșantion scurt produce o voce clonată impresionantă, rezultatele se îmbunătățesc rapid atunci când antrenamentul implică cel puțin trei enunțuri. Pe măsură ce sunt introduse propoziții suplimentare de la același vorbitor, acestea formează un grup de încorporări de diferențe pe care utilizatorii le pot observa prin intermediul unui afișaj de cartografiere în interfață.

Încorporările fiecărui vorbitor pot fi aplicate pentru a exprima sintetic o propoziție aleatorie sau utilizatorii pot introduce propriile texte, iar modelul le va exprima.

Tehnologia de clonare a vocii este relativ accesibilă pe internet în prezent. Lyrebird, un startup de inteligență artificială cu sediul la Montreal, oferă o platformă online care poate imita vorbirea mimică a unei persoane atunci când este antrenată pe 30 sau mai multe înregistrări. Baidu a introdus anul trecut un nou sistem neuronal de clonare a vocii care sintetizează vocea unei persoane din doar câteva mostre audio.

Noul depozit al lui Corentin Jemine oferă un cadru dezvoltat de el însuși cu o conductă în trei etape implementată din lucrări de cercetare anterioare, inclusiv SV2TTS, WaveRNN, Tacotron 2 și GE2E.

Depozitul GitHub include lucrări conexe, actualizări și un ghid rapid privind modul de configurare a setului de instrumente.

.