Clonar uma voz em cinco segundos com esta caixa de ferramentas AI

Clonar uma voz normalmente requer a recolha de horas de voz gravada para construir um conjunto de dados e depois utilizar o conjunto de dados para treinar um novo modelo de voz. Mas não mais. Um novo projeto Github introduz uma notável caixa de ferramentas de clonagem de voz em tempo real que permite a qualquer um clonar uma voz a partir de apenas cinco segundos de amostra de áudio.

Este repositório Github foi aberto em junho deste ano como uma implementação do paper Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) com um vocoder que funciona em tempo real. O projeto foi desenvolvido por Corentin Jemine, que obteve seu mestrado em Ciência de Dados na Universidade de Liège e trabalha como engenheiro de aprendizado de máquinas no Resemblee AI em Toronto.

Usuários introduzem uma pequena amostra de voz e o modelo – treinado somente durante o tempo de reprodução – pode imediatamente entregar enunciados texto-para-fala no estilo da amostra de voz. O projeto recebeu críticas e ganhou mais de 6.000 estrelas GitHub e 700 forks.

A interface inicial da caixa de ferramentas SV2TTS é mostrada abaixo. Os usuários podem reproduzir um arquivo de áudio de voz de cerca de cinco segundos selecionados aleatoriamente do conjunto de dados, ou usar seu próprio clipe de áudio.

Um espectrograma de mel e seus correspondentes encaixes do enunciado serão gerados após clicar no botão “carregar”.

>

>>

Embora uma única amostra curta produza uma voz clonada impressionante, os resultados melhoram rapidamente quando o treinamento envolve pelo menos três afirmações. À medida que outras afirmações do mesmo alto-falante são inseridas, elas formam um cluster de incorporações de diferenças que os usuários podem observar através de uma exibição de mapeamento na interface.

>

>

>

As incorporações de cada alto-falante podem ser aplicadas a uma voz sinteticamente aleatória, ou os usuários podem inserir seus próprios textos e o modelo os vocalizará.

>

>

A tecnologia de clonagem de voz está relativamente acessível na Internet hoje em dia. O Lyrebird é uma plataforma online que pode imitar a fala de uma pessoa quando treinada em 30 ou mais gravações. O Baidu introduziu no ano passado um novo sistema de clonagem de voz neural que sintetiza a voz de uma pessoa a partir de apenas algumas amostras de áudio.

O novo repositório de romances da Corentin Jemine fornece uma estrutura auto-desenvolvida com um pipeline de três estágios implementado a partir de trabalhos de pesquisa anteriores, incluindo SV2TTS, WaveRNN, Tacotron 2 e GE2E.

O repositório GitHub inclui artigos relacionados, atualizações e um guia rápido sobre como configurar a caixa de ferramentas.