次回の更新記事:AIと人間の協働は、どのような「型」がうまくいく?(公開予定日:2026年02月18日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMのロールプレイを強化するRoleLLMフレームワーク

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMのロールプレイ能力を評価し、引き出し、強化するためのフレームワーク『RoleLLM』が作られました。

徹底的かつ包括的なサポートが特徴で、定量的評価で性能が検証されています。

チューリッヒ工科大などの研究グループによる発表です。
○ Zekun Moore Wang et al., “RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models”

通常のLLMは、特定のキャラクターやパーソナリティを模倣する能力に限界があると言われています。
GPT-4はロールプレイにおいても比較的パワフルな性能を持ちますが、カスタマイズ性が限られています。

そこで研究者らは、LLMのロールプレイ能力を向上させる拡張ツール『RoleLLM』を開発しました。

■『RoleLLM』フレームワークの構造
以下の複数ステップを通じて、LLMのロールプレイ能力を高めます。
① ロールプロフィール作成
② 文脈ベースの指示文作成
③ GPTでロールプロンプト作成
④ ロール調整指示チューニング
また、ロールプレイ能力を評価するベンチマーク『RoleBench』も準備されました。

■『RoleLLM』の性能
以下の実験結果が示されました。
① RoleBenchデータセットで複数の検証が行われた
② モデルのロールプレイ能力を大幅に向上させることが確認された
③ 特にRoleLLaMAモデルは未見のロールに対しても強力な一般化能力を示した
④ プロンプトで改めて「あなたは〇〇です」と指示し直すとなお性能が上がる
なお精度、再現率、F1スコアなどを用いて定量的に評価されたとのことです。

■他のフレームワークに対する優位性
① RoleBenchを用いた評価もできる
② 高度かつ柔軟なロールプレイが実装できる
③ 複数のステージを通じてモデルのロールプレイ能力向上を徹底的かつ包括的にサポート

□本フレームワークの応用可能性についての考察
① 顧客対応サービスを多様なものにアップデートさせる
② エンターテインメント産業を活性化させる
③ 心理カウンセリングをより楽しくさせる
④ 異文化コミュニケーションを促進させる

📄 参照論文

RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models

著者: 著者:Zekun Moore Wang, Zhongyuan Peng, Haoran Que, Jiaheng Liu, Wangchunshu Zhou 他

関連記事