Kloonaa ääni viidessä sekunnissa tällä tekoälytyökalupakilla

Äänen kloonaaminen vaatii tavallisesti tuntikausien äänitetyn puheen keräämistä tietokokonaisuuden luomiseksi ja sitten uuden äänimallin kouluttamista tietokokonaisuuden avulla. Mutta ei enää. Uusi Github-projekti esittelee merkittävän reaaliaikaisen äänen kloonaustyökaluryhmän, jonka avulla kuka tahansa voi kloonata äänen vain viiden sekunnin ääninäytteestä.

Tämä Github-arkisto avattiin tämän vuoden kesäkuussa paperin Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) toteutuksena vokooderilla, joka toimii reaaliaikaisesti. Projektin kehitti Corentin Jemine, joka suoritti maisterin tutkinnon datatieteissä Liègen yliopistossa ja työskentelee koneoppimisinsinöörinä Resemble AI:lla Torontossa.

Käyttäjät syöttävät lyhyen ääninäytteen, ja malli – joka on koulutettu vain toistoaikana – pystyy välittömästi tuottamaan tekstistä puheeksi -ilmaisuja näytteeksi otetun äänen tyyliin. Projekti on saanut ylistäviä arvosteluja, ja se on saanut yli 6000 GitHub-tähteä ja 700 haaraa.

Sv2TTS-työkalupaketin alustava käyttöliittymä on esitetty alla. Käyttäjät voivat soittaa noin viiden sekunnin pituisen äänitiedoston, joka on valittu satunnaisesti tietokannasta, tai käyttää omaa äänileikettään.

Lataus-painiketta napsauttamalla luodaan mel-spektrogrammi ja sitä vastaavat lausuman upotukset.

Vaikka yhdellä lyhyellä näytteellä saadaan aikaan vaikuttava kloonattu ääni, tulokset paranevat nopeasti, kun harjoittelussa on mukana vähintään kolme lausumaa. Kun samalta puhujalta syötetään lisää lausumia, ne muodostavat klusterin erilaisista upotuksista, joita käyttäjät voivat tarkkailla käyttöliittymässä olevan kartoitusnäytön avulla.

Kunkin puhujan upotuksia voidaan soveltaa satunnaisten lausumien synteettiseen ääntämykseen tai käyttäjät voivat syöttää omia tekstejään, joita malli ääntää itse.

Äänen kloonaustekniikka on nykyään suhteellisen helposti saatavilla internetissä. Montrealissa toimiva tekoälyä kehittävä startup-yritys Lyrebird tarjoaa verkkoalustan, joka voi jäljitellä ihmisen puhetta, kun sitä harjoitellaan 30 tai useammalla äänitteellä. Baidu esitteli viime vuonna uuden neuraalisen äänen kloonausjärjestelmän, joka syntetisoi henkilön äänen vain muutamasta ääninäytteestä.

Corentin Jeminein uudenlainen arkisto tarjoaa itse kehitetyn kehyksen, jossa on kolmivaiheinen putki, joka on toteutettu aiemmasta tutkimustyöstä, mukaan lukien SV2TTS, WaveRNN, Tacotron 2 ja GE2E.

GitHub-arkisto sisältää aiheeseen liittyviä artikkeleita, päivityksiä ja pikaoppaan työkalupakin asettamisesta.