Kloner en stemme på fem sekunder med denne AI-værktøjskasse

Kloning af en stemme kræver typisk indsamling af timevis af optaget tale for at opbygge et datasæt og derefter bruge datasættet til at træne en ny stemmemodel. Men ikke længere. Et nyt Github-projekt introducerer en bemærkelsesværdig Real-Time Voice Cloning Toolbox, der gør det muligt for enhver at klone en stemme fra så lidt som fem sekunder af lydprøve.

Dette Github-repositorium blev åbnet i juni som en implementering af papiret Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) med en vocoder, der fungerer i realtid. Projektet blev udviklet af Corentin Jemine, der fik sin master i datalogi på universitetet i Liège og arbejder som maskinlæringsingeniør hos Resemble AI i Toronto.

Brugerne indtaster en kort stemmeprøve, og modellen – der kun er trænet i afspilningstiden – kan straks levere tekst-til-tale-udtalelser i stil med den prøvetagede stemme. Projektet har fået rosende anmeldelser og har fået over 6.000 GitHub-stjerner og 700 forks.

Den oprindelige grænseflade for SV2TTS-værktøjskassen er vist nedenfor. Brugere kan afspille en stemmelydfil på ca. fem sekunder, der vælges tilfældigt fra datasættet, eller bruge deres eget lydklip.

Et mel-spektrogram og de tilsvarende indlejringer af ytringen vil blive genereret, efter at der er klikket på “load”-knappen.

Selv om en enkelt kort prøve giver en imponerende klonet stemme, forbedres resultaterne hurtigt, når træningen omfatter mindst tre ytringer. Efterhånden som yderligere ytringer fra den samme højttaler indtastes, danner de en klynge af forskelsindlejringer, som brugerne kan observere via et kortlægningsdisplay i grænsefladen.

Hver højttalers indlejringer kan anvendes til syntetisk at stemme en tilfældig ytring, eller brugerne kan indtaste deres egne tekster, og modellen vil stemme dem.

Stemmekloningsteknologi er relativt tilgængelig på internettet i dag. Den Montreal-baserede AI-startup Lyrebird tilbyder en onlineplatform, der kan efterligne en persons efterligner tale, når den er trænet på 30 eller flere optagelser. Baidu introducerede sidste år et nyt neuralt stemmekloningssystem, der syntetiserer en persons stemme ud fra kun få lydprøver.

Corentin Jemines nye repository giver en selvudviklet ramme med en tretrins-pipeline implementeret fra tidligere forskningsarbejde, herunder SV2TTS, WaveRNN, Tacotron 2 og GE2E.

GitHub-repositoryet indeholder relaterede papirer, opdateringer og en hurtig vejledning om, hvordan man opsætter værktøjskassen.