「相槌」「笑い」「話者交代」のタイミングを工夫することで、LLMが格段に自然な音声ベースの話し方を手にいれることが検証されました。
本フレームワークが適用されたAI対AIのトークを再生すると自分の耳で確認することができます。
rinnnaの研究者らによる発表です。
○ Kentaro Mitsui et al., “Towards human-like spoken dialogue generation between AI agents from written dialogue”
LLMはテキストベースの対話は一貫性に長けています。
一方で、自然さの観点ではまだ課題があります。
もし人間のような話し方ができれば、柔らかなインタフェースを必要とするアプリケーション(保育や介護などの分野など)で活躍することなどが期待できます。
そこでrinnnaの研究グループは、相槌などをごく自然に使用するLLM拡張フレームワークを開発しました。
■フレームワークの方法論
① Dual-Tower Transformer Architectureを基にしたdGSLM(Dialogue Generative Spoken Language Model)を使用した
② 相槌の頻度、持続時間、話し手の交代の精度などで評価する
③ 74時間の会話データセットを使用。
④ A100 80GB GPUで500kステップ(約32時間)で最適化
■実験の結果
① 3つの異なる基準(対話の自然性、意味の理解性、音声品質)で評価された
② 相槌を適切な頻度で生成できると評価された
③ 話者交代も効果的であった
④ ただし、一部の領域ではまだ人間レベルのパフォーマンスに達していなかった
■主な結論と注意点
① 相槌、笑い、スムーズな話者交代などは、自然な対話に重要である
② 以前の研究(2000時間分のデータセット)よりも効率的な学習を行なった
③ ただしデータセットの小ささが一部の評価で低いスコアをもたらした可能性がある
④ 音声コーディングの改善、より大きなデータセットの使用、生のテキストに基づいたモデルの条件付けなど、さらなる研究が可能である
なお、今回開発されたフレームワークがLLMにどれほど自然な話し方をもたらすのかは、デモで確認できます。