Het klonen van een stem vereist doorgaans het verzamelen van uren opgenomen spraak om een dataset op te bouwen en vervolgens de dataset te gebruiken om een nieuw stemmodel te trainen. Maar nu niet meer. Een nieuw Github-project introduceert een opmerkelijke Real-Time Voice Cloning Toolbox waarmee iedereen een stem kan klonen vanaf slechts vijf seconden voorbeeldaudio.
Deze Github-repository werd deze juni open source als een implementatie van het paper Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) met een vocoder die in realtime werkt. Het project is ontwikkeld door Corentin Jemine, die zijn Master in Data Science haalde aan de Universiteit van Luik en werkt als machine learning engineer bij Resemble AI in Toronto.
Gebruikers voeren een kort stemvoorbeeld in en het model – dat alleen tijdens het afspelen wordt getraind – kan onmiddellijk tekst-naar-spraakuitingen leveren in de stijl van de gesampelde stem. Het project heeft lovende kritieken gekregen en heeft meer dan 6.000 GitHub sterren en 700 forks verdiend.
De initiële interface van de SV2TTS toolbox is hieronder te zien.
Een mel spectrogram en de bijbehorende inbeddingen van de uiting worden gegenereerd na het klikken op de “load”-knop.
Hoewel een enkele korte sample een indrukwekkende gekloonde stem oplevert, verbeteren de resultaten snel wanneer de training minstens drie uitingen omvat. Wanneer extra uitingen van dezelfde spreker worden ingevoerd, vormen ze een cluster van verschillende inbeddingen die gebruikers kunnen observeren via een mapping-display in de interface.
De inbeddingen van elke spreker kunnen worden gebruikt om synthetisch een willekeurige uiting in te spreken, of gebruikers kunnen hun eigen teksten invoeren en het model spreekt deze in.
De technologie voor het klonen van stemmen is tegenwoordig vrij toegankelijk op internet. De in Montreal gevestigde AI-startup Lyrebird biedt een online platform dat iemands spraak kan nabootsen als het getraind is op 30 of meer opnames. Baidu introduceerde vorig jaar een nieuw neuraal stemkloneringssysteem dat de stem van een persoon synthetiseert op basis van slechts een paar audiomonsters.
Corentin Jemine’s nieuwe repository biedt een zelfontwikkeld kader met een drietraps pijplijn geïmplementeerd uit eerder onderzoekswerk, waaronder SV2TTS, WaveRNN, Tacotron 2, en GE2E.
De GitHub-repository bevat gerelateerde papers, updates, en een snelle gids over hoe de toolbox op te zetten.