LLMで物体に個性と自然な動きを与えるChatAnything

2023.11.15

音声・音楽（音声認識、TTS、音楽生成、音声対話）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「声」とそれに合わせた「表情」そして「性格」もテキストプロンプトから作り出すLLM活用ツール『ChatAnything』が開発されました。

平たく言うと任意のオブジェクトに個性を吹き込む技術です。

TikTok運営のByteDance社などの研究チームが発表しています。

@ Yilin Zhao et al., “ChatAnything: Facetime Chat with LLM-Enhanced Personas”

論文によると、これまで生成AIによって作られる「顔」は、一見すると人間のようでも、「動き」が不自然だったとのことです。

研究者らはLLMを活用して、任意のオブジェクトから個性を持たせた自然なアニメーションを作成する技術『ChatAnything』を開発しました。

■ChatAnythingのフレームワーク
① プロプトから性格を生成するLLMモジュール
② キャラの画像を生成する拡散モデルモジュール
③ キャラの声を生成するモジュール
④ 声に合わせて画像を動かすモジュール

■技術の評価実験
顔の検出器を使用したところ、92.5%の精度で「顔」だと識別された（従来の方法は57%）

■使い方（デモ）
① Hugging Faceなどで公開されているデモにアクセス
② OpenAIのAPIキーを入力
③ テキストプロンプトで画像を生成
④ 音声生成モジュールの設定を変更
⑤ テキストプロンプト性格を設定
⑥ 性格に基づいて音声を選択
⑦ 生成を実行

※GitHubからインストールも可能

なお本技術はまだ発展途上であり、実際のアプリケーションへの適用についてはクオリティーを慎重に検証することが重要です。

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ