「声」とそれに合わせた「表情」そして「性格」もテキストプロンプトから作り出すLLM活用ツール『ChatAnything』が開発されました。
平たく言うと任意のオブジェクトに個性を吹き込む技術です。
TikTok運営のByteDance社などの研究チームが発表しています。
@ Yilin Zhao et al., “ChatAnything: Facetime Chat with LLM-Enhanced Personas”
論文によると、これまで生成AIによって作られる「顔」は、一見すると人間のようでも、「動き」が不自然だったとのことです。
研究者らはLLMを活用して、任意のオブジェクトから個性を持たせた自然なアニメーションを作成する技術『ChatAnything』を開発しました。
■ChatAnythingのフレームワーク
① プロプトから性格を生成するLLMモジュール
② キャラの画像を生成する拡散モデルモジュール
③ キャラの声を生成するモジュール
④ 声に合わせて画像を動かすモジュール
■技術の評価実験
顔の検出器を使用したところ、92.5%の精度で「顔」だと識別された(従来の方法は57%)
■使い方(デモ)
① Hugging Faceなどで公開されているデモにアクセス
② OpenAIのAPIキーを入力
③ テキストプロンプトで画像を生成
④ 音声生成モジュールの設定を変更
⑤ テキストプロンプト性格を設定
⑥ 性格に基づいて音声を選択
⑦ 生成を実行
※GitHubからインストールも可能
なお本技術はまだ発展途上であり、実際のアプリケーションへの適用についてはクオリティーを慎重に検証することが重要です。