Klonování hlasu za pět vteřin pomocí této sady nástrojů umělé inteligence

Klonování hlasu obvykle vyžaduje shromáždění hodin nahrané řeči k vytvoření datové sady a následné použití datové sady k trénování nového hlasového modelu. Ale teď už ne. Nový projekt Github představuje pozoruhodný Real-Time Voice Cloning Toolbox, který umožňuje komukoli naklonovat hlas z pouhých pěti sekund zvukového vzorku.

Tento repozitář Github byl otevřen letos v červnu jako implementace článku Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) s vokodérem, který pracuje v reálném čase. Projekt vyvinul Corentin Jemine, který získal magisterský titul v oboru datových věd na univerzitě v Liège a pracuje jako inženýr strojového učení ve společnosti Resemble AI v Torontu.

Uživatelé zadají krátký vzorek hlasu a model – trénovaný pouze v době přehrávání – dokáže okamžitě poskytovat textově mluvené výroky ve stylu vzorkovaného hlasu. Projekt získal nadšené recenze a vysloužil si více než 6 000 hvězdiček na GitHubu a 700 forků.

Počáteční rozhraní souboru nástrojů SV2TTS je uvedeno níže. Uživatelé mohou přehrát hlasový zvukový soubor o délce přibližně pěti sekund náhodně vybraný ze souboru dat nebo použít vlastní zvukový klip.

Po kliknutí na tlačítko „load“ se vygeneruje spektrogram mel a jemu odpovídající embeddings výpovědi.

Ačkoli jediný krátký vzorek vytváří působivý klonovaný hlas, výsledky se rychle zlepšují, pokud trénink zahrnuje alespoň tři výroky. Jakmile jsou zadány další výroky od téhož mluvčího, vytvoří se shluk rozdílných osazení, která mohou uživatelé sledovat prostřednictvím zobrazení map v rozhraní.

Osazení každého mluvčího lze použít k syntetickému namluvení náhodného výroku nebo mohou uživatelé zadat vlastní texty a model je namluví.

Technologie klonování hlasu je dnes na internetu poměrně dostupná. Montreálský startup Lyrebird, který se zabývá umělou inteligencí, poskytuje online platformu, která dokáže napodobit řeč člověka, pokud je vyškolena na 30 nebo více nahrávkách. Společnost Baidu loni představila nový neuronový systém klonování hlasu, který syntetizuje hlas člověka pouze z několika zvukových vzorků.

Nový repozitář Corentin Jemine poskytuje vlastní vyvinutý rámec s třístupňovou pipeline implementovanou z dřívějších výzkumných prací, včetně SV2TTS, WaveRNN, Tacotron 2 a GE2E.

Repozitář GitHub obsahuje související dokumenty, aktualizace a stručný návod, jak nastavit sadu nástrojů.