LLMのロールプレイ能力を評価し、引き出し、強化するためのフレームワーク『RoleLLM』が作られました。
徹底的かつ包括的なサポートが特徴で、定量的評価で性能が検証されています。
チューリッヒ工科大などの研究グループによる発表です。
○ Zekun Moore Wang et al., “RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models”
通常のLLMは、特定のキャラクターやパーソナリティを模倣する能力に限界があると言われています。
GPT-4はロールプレイにおいても比較的パワフルな性能を持ちますが、カスタマイズ性が限られています。
そこで研究者らは、LLMのロールプレイ能力を向上させる拡張ツール『RoleLLM』を開発しました。
■『RoleLLM』フレームワークの構造
以下の複数ステップを通じて、LLMのロールプレイ能力を高めます。
① ロールプロフィール作成
② 文脈ベースの指示文作成
③ GPTでロールプロンプト作成
④ ロール調整指示チューニング
また、ロールプレイ能力を評価するベンチマーク『RoleBench』も準備されました。
■『RoleLLM』の性能
以下の実験結果が示されました。
① RoleBenchデータセットで複数の検証が行われた
② モデルのロールプレイ能力を大幅に向上させることが確認された
③ 特にRoleLLaMAモデルは未見のロールに対しても強力な一般化能力を示した
④ プロンプトで改めて「あなたは〇〇です」と指示し直すとなお性能が上がる
なお精度、再現率、F1スコアなどを用いて定量的に評価されたとのことです。
■他のフレームワークに対する優位性
① RoleBenchを用いた評価もできる
② 高度かつ柔軟なロールプレイが実装できる
③ 複数のステージを通じてモデルのロールプレイ能力向上を徹底的かつ包括的にサポート
□本フレームワークの応用可能性についての考察
① 顧客対応サービスを多様なものにアップデートさせる
② エンターテインメント産業を活性化させる
③ 心理カウンセリングをより楽しくさせる
④ 異文化コミュニケーションを促進させる
📄 参照論文
RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models