La clonación de una voz suele requerir la recopilación de horas de habla grabada para construir un conjunto de datos y luego utilizarlo para entrenar un nuevo modelo de voz. Pero ya no. Un nuevo proyecto de Github presenta una extraordinaria caja de herramientas de clonación de voz en tiempo real que permite a cualquiera clonar una voz a partir de tan solo cinco segundos de audio de muestra.
Este repositorio de Github se abrió este mes de junio como una implementación del documento Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) con un vocoder que funciona en tiempo real. El proyecto ha sido desarrollado por Corentin Jemine, que obtuvo un máster en Ciencias de los Datos en la Universidad de Lieja y trabaja como ingeniero de aprendizaje automático en Resemble AI, en Toronto.
Los usuarios introducen una breve muestra de voz y el modelo -entrenado sólo durante el tiempo de reproducción- puede emitir inmediatamente expresiones de texto a voz en el estilo de la voz muestreada. El proyecto ha recibido muy buenas críticas y ha obtenido más de 6.000 estrellas de GitHub y 700 forks.
A continuación se muestra la interfaz inicial de la caja de herramientas SV2TTS. Los usuarios pueden reproducir un archivo de audio de voz de unos cinco segundos seleccionado aleatoriamente del conjunto de datos, o utilizar su propio clip de audio.
Después de hacer clic en el botón «cargar» se generará un espectrograma de mel y sus correspondientes incrustaciones del enunciado.