Clonación de una voz en cinco segundos con esta caja de herramientas de IA

La clonación de una voz suele requerir la recopilación de horas de habla grabada para construir un conjunto de datos y luego utilizarlo para entrenar un nuevo modelo de voz. Pero ya no. Un nuevo proyecto de Github presenta una extraordinaria caja de herramientas de clonación de voz en tiempo real que permite a cualquiera clonar una voz a partir de tan solo cinco segundos de audio de muestra.

Este repositorio de Github se abrió este mes de junio como una implementación del documento Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) con un vocoder que funciona en tiempo real. El proyecto ha sido desarrollado por Corentin Jemine, que obtuvo un máster en Ciencias de los Datos en la Universidad de Lieja y trabaja como ingeniero de aprendizaje automático en Resemble AI, en Toronto.

Los usuarios introducen una breve muestra de voz y el modelo -entrenado sólo durante el tiempo de reproducción- puede emitir inmediatamente expresiones de texto a voz en el estilo de la voz muestreada. El proyecto ha recibido muy buenas críticas y ha obtenido más de 6.000 estrellas de GitHub y 700 forks.

A continuación se muestra la interfaz inicial de la caja de herramientas SV2TTS. Los usuarios pueden reproducir un archivo de audio de voz de unos cinco segundos seleccionado aleatoriamente del conjunto de datos, o utilizar su propio clip de audio.

Después de hacer clic en el botón «cargar» se generará un espectrograma de mel y sus correspondientes incrustaciones del enunciado.

Aunque una sola muestra corta produce una voz clonada impresionante, los resultados mejoran rápidamente cuando el entrenamiento incluye al menos tres locuciones. A medida que se introducen más expresiones del mismo hablante, se forma un grupo de diferencias que los usuarios pueden observar a través de un mapa en la interfaz.

Las expresiones de cada hablante pueden aplicarse para expresar sintéticamente una expresión aleatoria, o los usuarios pueden introducir sus propios textos y el modelo los expresará.

La tecnología de clonación de voz es relativamente accesible en Internet. La empresa de IA Lyrebird, con sede en Montreal, ofrece una plataforma en línea que puede imitar el habla de una persona cuando se entrena con 30 o más grabaciones. Baidu presentó el año pasado un nuevo sistema neural de clonación de voz que sintetiza la voz de una persona a partir de unas pocas muestras de audio.

El novedoso repositorio de Corentin Jemine ofrece un marco de trabajo desarrollado por él mismo con un pipeline de tres etapas implementado a partir de trabajos de investigación anteriores, incluyendo SV2TTS, WaveRNN, Tacotron 2 y GE2E.

El repositorio de GitHub incluye documentos relacionados, actualizaciones y una guía rápida sobre cómo configurar la caja de herramientas.