Egy hang klónozásához általában több órányi rögzített beszédet kell gyűjteni egy adathalmaz létrehozásához, majd az adathalmaz segítségével egy új hangmodellt kell betanítani. De többé már nem. Egy új Github-projekt egy figyelemre méltó valós idejű hangklónozó eszköztárat mutat be, amellyel bárki képes hangot klónozni mindössze öt másodperces hangmintából.
Ez a Github-tár idén júniusban nyílt forráskódúvá vált, mint a Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) című dokumentum megvalósítása egy valós időben működő vocoderrel. A projektet Corentin Jemine fejlesztette ki, aki a Liège-i Egyetemen szerzett mesterdiplomát adattudományból, és gépi tanulási mérnökként dolgozik a torontói Resemble AI-nál.
A felhasználók egy rövid hangmintát adnak be, és a modell – amelyet csak a lejátszási idő alatt képeztek ki – azonnal képes a mintázott hang stílusában szövegből beszéddé alakított kijelentéseket szolgáltatni. A projekt lelkes kritikákat kapott, és több mint 6000 GitHub-csillagot és 700 elágazást szerzett.
Az SV2TTS eszköztár kezdeti felülete az alábbiakban látható. A felhasználók lejátszhatnak egy körülbelül öt másodperces hangfájlt, amelyet véletlenszerűen választanak ki az adathalmazból, vagy használhatják saját hangklipjüket.
A “load” gombra kattintás után létrejön egy mel spektrogram és a megszólalás megfelelő beágyazása.
Bár egyetlen rövid minta lenyűgöző klónozott hangot eredményez, az eredmények gyorsan javulnak, ha a gyakorlás legalább három kimondást foglal magában. Ahogy további, ugyanattól a beszélőtől származó megnyilatkozások kerülnek bevitelre, azok különböző beágyazásokból álló csoportot alkotnak, amelyeket a felhasználók a kezelőfelületen lévő leképező kijelzőn keresztül figyelhetnek meg.
Az egyes beszélők beágyazásait lehet alkalmazni egy véletlenszerű megnyilatkozás szintetikus megszólaltatásához, vagy a felhasználók saját szövegeket is beírhatnak, amelyeket a modell megszólaltat.
A hangklónozási technológia ma már viszonylag könnyen hozzáférhető az interneten. A montreali székhelyű Lyrebird AI startup olyan online platformot kínál, amely 30 vagy több felvételen betanítva képes utánozni egy személy beszédének mimikáját. A Baidu tavaly mutatott be egy új neurális hangklónozó rendszert, amely mindössze néhány hangminta alapján szintetizálja egy személy hangját.
Corentin Jemine újszerű tárháza egy saját fejlesztésű keretrendszert kínál egy háromlépcsős, korábbi kutatási munkákból megvalósított csővezetékkel, beleértve az SV2TTS-t, a WaveRNN-t, a Tacotron 2-t és a GE2E-t.
A GitHub-tárház tartalmazza a kapcsolódó cikkeket, frissítéseket és egy gyors útmutatót az eszköztár beállításához.