Um eine Stimme zu klonen, muss man normalerweise stundenlang aufgezeichnete Sprache sammeln, um einen Datensatz zu erstellen, der dann zum Trainieren eines neuen Stimmenmodells verwendet wird. But not anymore. Ein neues Github-Projekt stellt eine bemerkenswerte Echtzeit-Toolbox zum Klonen von Stimmen vor, die es jedem ermöglicht, eine Stimme aus nur fünf Sekunden Audiobeispielen zu klonen.
Dieses Github-Repository wurde im Juni dieses Jahres als eine Implementierung des Papiers Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) mit einem Vocoder, der in Echtzeit arbeitet, veröffentlicht. Das Projekt wurde von Corentin Jemine entwickelt, der seinen Master in Datenwissenschaften an der Universität Lüttich gemacht hat und als Ingenieur für maschinelles Lernen bei Resemble AI in Toronto arbeitet.
Der Benutzer gibt ein kurzes Sprachsample ein, und das Modell – das nur während der Wiedergabezeit trainiert wird – kann sofort Text-zu-Sprache-Äußerungen im Stil der gesampelten Stimme liefern. Das Projekt hat begeisterte Kritiken erhalten und über 6.000 GitHub-Sterne und 700 Forks erhalten.
Die anfängliche Schnittstelle der SV2TTS-Toolbox ist unten dargestellt. Benutzer können eine etwa fünf Sekunden lange Audiodatei abspielen, die zufällig aus dem Datensatz ausgewählt wurde, oder ihren eigenen Audioclip verwenden.
Nach einem Klick auf die Schaltfläche „Laden“ werden ein Mel-Spektrogramm und die entsprechenden Einbettungen der Äußerung erzeugt.
Obwohl ein einziges kurzes Sample eine beeindruckende geklonte Stimme erzeugt, verbessern sich die Ergebnisse schnell, wenn das Training mindestens drei Äußerungen umfasst. Wenn weitere Äußerungen desselben Sprechers eingegeben werden, bilden sie eine Gruppe von unterschiedlichen Einbettungen, die der Benutzer über eine Mapping-Anzeige in der Benutzeroberfläche beobachten kann.
Die Einbettungen jedes Sprechers können verwendet werden, um eine zufällige Äußerung zu synthetisieren, oder der Benutzer kann seine eigenen Texte eingeben, die das Modell dann einspricht.
Die Technologie des Stimmenklonens ist heute im Internet relativ leicht zugänglich. Das in Montreal ansässige KI-Startup Lyrebird bietet eine Online-Plattform an, die die Sprache einer Person nachahmen kann, wenn sie auf 30 oder mehr Aufnahmen trainiert wurde. Baidu hat im vergangenen Jahr ein neues neuronales Stimmklon-System vorgestellt, das die Stimme einer Person aus nur wenigen Audio-Samples synthetisiert.
Das neuartige Repository von Corentin Jemine bietet ein selbst entwickeltes Framework mit einer dreistufigen Pipeline, die auf der Grundlage früherer Forschungsarbeiten implementiert wurde, darunter SV2TTS, WaveRNN, Tacotron 2 und GE2E.
Das GitHub-Repository enthält verwandte Arbeiten, Updates und eine Kurzanleitung zur Einrichtung der Toolbox.