Klonování hlasu obvykle vyžaduje shromáždění hodin nahrané řeči k vytvoření datové sady a následné použití datové sady k trénování nového hlasového modelu. Ale teď už ne. Nový projekt Github představuje pozoruhodný Real-Time Voice Cloning Toolbox, který umožňuje komukoli naklonovat hlas z pouhých pěti sekund zvukového vzorku.
Tento repozitář Github byl otevřen letos v červnu jako implementace článku Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) s vokodérem, který pracuje v reálném čase. Projekt vyvinul Corentin Jemine, který získal magisterský titul v oboru datových věd na univerzitě v Liège a pracuje jako inženýr strojového učení ve společnosti Resemble AI v Torontu.
Uživatelé zadají krátký vzorek hlasu a model – trénovaný pouze v době přehrávání – dokáže okamžitě poskytovat textově mluvené výroky ve stylu vzorkovaného hlasu. Projekt získal nadšené recenze a vysloužil si více než 6 000 hvězdiček na GitHubu a 700 forků.
Počáteční rozhraní souboru nástrojů SV2TTS je uvedeno níže. Uživatelé mohou přehrát hlasový zvukový soubor o délce přibližně pěti sekund náhodně vybraný ze souboru dat nebo použít vlastní zvukový klip.
Po kliknutí na tlačítko „load“ se vygeneruje spektrogram mel a jemu odpovídající embeddings výpovědi.