自分の話し声を別の誰かの声にリアルタイム変換する
モデルが、一般消費者向けCPUで動かせる軽さで登場しました。
極めて速い変換(低遅延)を実現するのが今回の肝であり、デモ音声ではまるでアニメの秘密道具のようにナチュラルな入れ替わりを確認できます。
Koe AIの新しい研究成果です。
@ Konstantine Sadov et al., “Low-latency Real-time Voice Conversion on CPU”
音声変換は大きな研究トレンドですが、リアルタイムでの音声変換を、消費者向けハードウェアで実現することは難しいとされてきました。
そこで研究者らは、極限まで軽い処理で動く音声変換モデル『LLVC(Low-latency Voice Conversion)』を開発しました。
■LLVCモデルのポイント
① ジェネレータとディスクリミネータで構成されている
② 推論時にはジェネレータのみが使用される
③ 入力に以前のオーディオコンテキストを活用する
④ 計算効率と変換品質のトレードオフを行っている
■性能のテスト結果
① RTX 3090 GPUを使用して500,000ステップ(53エポック)で3日間トレーニング
② Intel(R) Core(TM) i9-10850K CPU @ 3.60GHzで評価
③ エンドツーエンドの遅延が19.696ミリ秒と非常に低かった
④ リアルタイムファクター(RTF)が2.769と高いパフォーマンスを示した
⑤ ターゲットスピーカーの類似性と品質に関する客観的な評価が得られた
→LLVCがリアルタイムでの音声変換において、低遅延かつ高品質な変換を実現できることが示された。
※トレーニングにはGPUが必要であったが、実際の運用ではCPUでOK、という理解になります。
■主な結論
① LLVCは、消費者向けCPUでストリーミング方式による音声変換を20msという低遅延で実現する初のオープンソースモデル
② 様々なスピーカーの音声を単一のターゲットスピーカーのように聞こえるように変換する
③ アルタイム音声変換をGPUがないデバイス(例えばラップトップやスマホ)でストリーミング方式で実行できる
音声変換の実際のクオリティーはデモページで確認できます。