Clonare una voce richiede tipicamente la raccolta di ore di discorso registrato per costruire un set di dati e poi utilizzare il set di dati per addestrare un nuovo modello di voce. Ma non più. Un nuovo progetto Github introduce un notevole Real-Time Voice Cloning Toolbox che permette a chiunque di clonare una voce da appena cinque secondi di audio campione.
Questo repository Github è stato open sourced questo giugno come implementazione del documento Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) con un vocoder che funziona in tempo reale. Il progetto è stato sviluppato da Corentin Jemine, che ha ottenuto il suo Master in Data Science presso l’Università di Liegi e lavora come ingegnere di apprendimento automatico presso Resemble AI a Toronto.
Gli utenti inseriscono un breve campione di voce e il modello – addestrato solo durante il tempo di riproduzione – può immediatamente fornire enunciati text-to-speech nello stile della voce campionata. Il progetto ha ricevuto recensioni entusiastiche e si è guadagnato oltre 6.000 stelle GitHub e 700 fork.
L’interfaccia iniziale del toolbox SV2TTS è mostrata qui sotto. Gli utenti possono riprodurre un file audio vocale di circa cinque secondi selezionato in modo casuale dal dataset, o utilizzare la propria clip audio.
Uno spettrogramma mel e le sue corrispondenti embeddings dell’enunciato saranno generate dopo aver cliccato il pulsante “load”.
Anche se un singolo breve campione produce una voce clonata impressionante, i risultati migliorano rapidamente quando l’allenamento coinvolge almeno tre enunciati. Man mano che vengono immessi ulteriori enunciati dallo stesso oratore, essi formano un gruppo di embeddings differenti che gli utenti possono osservare tramite un display di mappatura nell’interfaccia.
Le embeddings di ciascun oratore possono essere applicate per vocalizzare sinteticamente un enunciato casuale, oppure gli utenti possono immettere i propri testi e il modello li vocalizzerà.
La tecnologia di clonazione vocale è relativamente accessibile su Internet oggi. La startup AI Lyrebird, con sede a Montreal, fornisce una piattaforma online che può imitare il discorso di una persona se addestrata su 30 o più registrazioni. Baidu l’anno scorso ha introdotto un nuovo sistema di clonazione vocale neurale che sintetizza la voce di una persona da pochi campioni audio.
Il nuovo repository di Corentin Jemine fornisce un quadro auto-sviluppato con una pipeline a tre stadi implementata da lavori di ricerca precedenti, tra cui SV2TTS, WaveRNN, Tacotron 2, e GE2E.
Il repository GitHub include documenti correlati, aggiornamenti e una guida rapida su come impostare il toolbox.