Kloning av en röst kräver vanligtvis att man samlar in timmar av inspelat tal för att bygga en datamängd och sedan använder datamängden för att träna en ny röstmodell. Men inte längre. Ett nytt Github-projekt introducerar en anmärkningsvärd verktygslåda för röstkloning i realtid som gör det möjligt för vem som helst att klona en röst från så lite som fem sekunder av ett ljudprov.
Detta Github-arkiv öppnades i juni i år som en implementering av dokumentet Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) med en vocoder som fungerar i realtid. Projektet utvecklades av Corentin Jemine, som fick sin magisterexamen i datavetenskap vid universitetet i Liège och arbetar som maskininlärningsingenjör på Resemble AI i Toronto.
Användare matar in ett kort röstprov och modellen – som tränas endast under uppspelningstiden – kan omedelbart leverera text-till-tal-uttalanden i stilen av den provtagna rösten. Projektet har fått mycket goda recensioner och har fått över 6 000 GitHub-stjärnor och 700 gafflar.
Det första gränssnittet för SV2TTS-verktygslådan visas nedan. Användarna kan spela upp en röstljudfil på cirka fem sekunder som väljs slumpmässigt från datasetet, eller använda ett eget ljudklipp.
Ett mel-spektrogram och motsvarande inbäddning av uttalandet kommer att genereras efter att ha klickat på ”load”-knappen.
Och även om ett enda kort prov ger en imponerande klonad röst, förbättras resultaten snabbt när träningen omfattar minst tre yttranden. När ytterligare yttranden från samma talare matas in bildar de ett kluster av olika inbäddningar som användarna kan observera via en mappningsdisplay i gränssnittet.
Varje talares inbäddning kan användas för att syntetiskt ge röst åt ett slumpmässigt yttrande, eller så kan användarna mata in sina egna texter och modellen ger röst åt dem.
Teknik för röstkloning är relativt lättillgänglig på Internet idag. Den Montreal-baserade AI-startupen Lyrebird tillhandahåller en onlineplattform som kan efterlikna en persons efterliknande tal när den tränas på 30 eller fler inspelningar. Baidu introducerade förra året ett nytt neuralt röstkloningssystem som syntetiserar en persons röst från endast några få ljudprov.
Corentin Jemines nya förvaringsutrymme tillhandahåller ett egenutvecklat ramverk med en pipeline i tre steg som implementerats från tidigare forskningsarbete, inklusive SV2TTS, WaveRNN, Tacotron 2 och GE2E.
Github-förvaringsutrymmet innehåller relaterade artiklar, uppdateringar och en snabbguide om hur verktygslådan ska konfigureras.