Cloner une voix nécessite généralement de collecter des heures de paroles enregistrées pour construire un jeu de données puis d’utiliser ce jeu de données pour entraîner un nouveau modèle vocal. Mais ce n’est plus le cas. Un nouveau projet Github présente une remarquable boîte à outils de clonage de voix en temps réel qui permet à quiconque de cloner une voix à partir d’un échantillon audio de cinq secondes seulement.
Ce dépôt Github a été mis en source ouverte en juin dernier en tant qu’implémentation du document Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) avec un vocodeur qui fonctionne en temps réel. Le projet a été développé par Corentin Jemine, qui a obtenu son master en science des données à l’Université de Liège et travaille comme ingénieur en apprentissage automatique chez Resemble AI à Toronto.
Les utilisateurs saisissent un court échantillon de voix et le modèle – entraîné uniquement pendant le temps de lecture – peut immédiatement fournir des énoncés de synthèse vocale dans le style de la voix échantillonnée. Le projet a reçu des critiques élogieuses et a obtenu plus de 6 000 étoiles GitHub et 700 forks.
L’interface initiale de la boîte à outils SV2TTS est présentée ci-dessous. Les utilisateurs peuvent lire un fichier audio vocal d’environ cinq secondes sélectionné aléatoirement dans le jeu de données, ou utiliser leur propre clip audio.
Un spectrogramme mel et ses embeddings correspondants de l’énoncé seront générés après avoir cliqué sur le bouton « load ».
Bien qu’un seul échantillon court produise une voix clonée impressionnante, les résultats s’améliorent rapidement lorsque l’entraînement implique au moins trois énoncés. Au fur et à mesure que des énoncés supplémentaires du même locuteur sont entrés, ils forment un cluster d’enchâssements de différences que les utilisateurs peuvent observer via un affichage de cartographie dans l’interface.
Les enchâssements de chaque locuteur peuvent être appliqués pour vocaliser synthétiquement un énoncé aléatoire, ou les utilisateurs peuvent entrer leurs propres textes et le modèle les vocalisera.
La technologie de clonage vocal est relativement accessible sur Internet aujourd’hui. La startup d’IA Lyrebird, basée à Montréal, propose une plateforme en ligne qui peut imiter la parole d’une personne lorsqu’elle est entraînée sur 30 enregistrements ou plus. Baidu a présenté l’année dernière un nouveau système neuronal de clonage de la voix qui synthétise la voix d’une personne à partir de seulement quelques échantillons audio.
Le dépôt inédit de Corentin Jemine fournit un cadre auto-développé avec un pipeline en trois étapes mis en œuvre à partir de travaux de recherche antérieurs, y compris SV2TTS, WaveRNN, Tacotron 2 et GE2E.
Le dépôt GitHub comprend des articles connexes, des mises à jour et un guide rapide sur la façon de configurer la boîte à outils.