声のクローンを作るには、通常、何時間も録音した音声を集めてデータセットを作り、そのデータセットを使って新しい音声モデルを学習させる必要があります。 しかし、もうそうではない。 新しい Github プロジェクトでは、わずか 5 秒のサンプル オーディオから誰でも音声をクローンできる、注目すべきリアルタイム音声クローン ツールボックスを紹介しています。
この Github リポジトリは、論文 Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) をリアルタイムで機能するボコーダで実装するものとして、今年 6 月にオープンソース化されました。 このプロジェクトは、リエージュ大学でデータ科学の修士号を取得し、トロントの Resemble AI で機械学習エンジニアとして働いている Corentin Jemine が開発しました。
ユーザーが短い音声サンプルを入力すると、再生時間中にのみ学習したモデルが、サンプル音声のスタイルでテキスト音声合成をすぐに行うことができます。 このプロジェクトは絶賛され、6,000 以上の GitHub スターと 700 以上のフォークを獲得しました。
SV2TTS ツールボックスの初期インターフェイスは以下のとおりです。 ユーザーはデータセットからランダムに選んだ約 5 秒の音声ファイルを再生するか、自分の音声クリップを使用できます。
“load” ボタンをクリックすると、発話のスペクトログラムとそれに対応する埋め込みが生成されるでしょう。
1 つの短いサンプルでも素晴らしいクローン音声が生成されますが、少なくとも 3 つの発話でトレーニングを行うと結果はすぐに改善されます。
それぞれの話者の埋め込みを適用して、ランダムに発話を合成したり、ユーザーが自分のテキストを入力してモデルがそれを音声化することが可能です。
ボイス クローン技術は、現在インターネット上で比較的入手しやすくなっています。 モントリオールに拠点を置くAIスタートアップのLyrebirdは、30以上の録音で訓練すると、人の模倣音声を模倣できるオンライン・プラットフォームを提供しています。 Baiduは昨年、わずか数個の音声サンプルから人の声を合成する新しいニューラル・ボイス・クローニング・システムを発表した。
Corentin Jemine の斬新なリポジトリは、SV2TTS、WaveRNN、Tacotron 2、GE2E などの以前の研究成果から実装された 3 段階のパイプラインを持つ、自分で開発したフレームワークを提供しています。
GitHub のリポジトリには関連論文、アップデート、ツールボックスを設定するためのクイックガイドが含まれています。