Clone a Voice in Five Seconds With This AI Toolbox

Klonowanie głosu zazwyczaj wymaga zebrania godzin nagranej mowy w celu zbudowania zbioru danych, a następnie wykorzystania zbioru danych do wytrenowania nowego modelu głosu. Ale już nie teraz. Nowy projekt na Githubie wprowadza niezwykły zestaw narzędzi do klonowania głosu w czasie rzeczywistym, który umożliwia każdemu sklonowanie głosu z zaledwie pięciu sekund próbki audio.

To repozytorium na Githubie zostało otwarte w czerwcu tego roku jako implementacja pracy Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) z vocoderem, który działa w czasie rzeczywistym. Projekt został opracowany przez Corentina Jemine’a, który uzyskał tytuł magistra w dziedzinie nauki o danych na Uniwersytecie w Liège i pracuje jako inżynier uczenia maszynowego w Resemble AI w Toronto.

Użytkownicy wprowadzają krótką próbkę głosu, a model – wyszkolony tylko w czasie odtwarzania – może natychmiast dostarczać wypowiedzi tekstowe w stylu próbkowanego głosu. Projekt otrzymał entuzjastyczne recenzje i zdobył ponad 6000 gwiazdek na GitHubie oraz 700 forków.

Początkowy interfejs zestawu narzędzi SV2TTS jest pokazany poniżej. Użytkownicy mogą odtworzyć około pięciosekundowy plik audio wybrany losowo ze zbioru danych lub użyć własnego klipu audio.

Po kliknięciu przycisku „load” zostanie wygenerowany spektrogram mel i odpowiadające mu embeddingi wypowiedzi.

Chociaż pojedyncza krótka próbka daje imponujący sklonowany głos, wyniki szybko się poprawiają, gdy trening obejmuje co najmniej trzy wypowiedzi. W miarę wprowadzania kolejnych wypowiedzi tego samego mówcy tworzą one skupisko embeddingów różnic, które użytkownicy mogą obserwować za pomocą wyświetlacza mapującego w interfejsie.

Embeddingi każdego z mówców mogą być zastosowane do syntetycznego udźwiękowienia losowej wypowiedzi lub użytkownicy mogą wprowadzać własne teksty, a model je udźwiękowia.

Technologia klonowania głosu jest dziś stosunkowo dostępna w Internecie. Montrealski startup AI Lyrebird zapewnia platformę online, która może naśladować mowę danej osoby, gdy jest przeszkolona na 30 lub więcej nagraniach. Baidu w zeszłym roku wprowadziło nowy neuronowy system klonowania głosu, który syntetyzuje głos osoby na podstawie zaledwie kilku próbek audio.

Corentin Jemine’s nowatorskie repozytorium zapewnia samodzielnie opracowane ramy z trzystopniowym potokiem zaimplementowanym z wcześniejszych prac badawczych, w tym SV2TTS, WaveRNN, Tacotron 2 i GE2E.

Repozytorium GitHub zawiera powiązane papiery, aktualizacje i szybki przewodnik, jak skonfigurować zestaw narzędzi.

.