LLMのロールプレイを強化するRoleLLMフレームワーク

2023.10.04

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMのロールプレイ能力を評価し、引き出し、強化するためのフレームワーク『RoleLLM』が作られました。

徹底的かつ包括的なサポートが特徴で、定量的評価で性能が検証されています。

チューリッヒ工科大などの研究グループによる発表です。
○ Zekun Moore Wang et al., “RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models”

通常のLLMは、特定のキャラクターやパーソナリティを模倣する能力に限界があると言われています。
GPT-4はロールプレイにおいても比較的パワフルな性能を持ちますが、カスタマイズ性が限られています。

そこで研究者らは、LLMのロールプレイ能力を向上させる拡張ツール『RoleLLM』を開発しました。

■『RoleLLM』フレームワークの構造
以下の複数ステップを通じて、LLMのロールプレイ能力を高めます。
① ロールプロフィール作成
② 文脈ベースの指示文作成
③ GPTでロールプロンプト作成
④ ロール調整指示チューニング
また、ロールプレイ能力を評価するベンチマーク『RoleBench』も準備されました。

■『RoleLLM』の性能
以下の実験結果が示されました。
① RoleBenchデータセットで複数の検証が行われた
② モデルのロールプレイ能力を大幅に向上させることが確認された
③ 特にRoleLLaMAモデルは未見のロールに対しても強力な一般化能力を示した
④ プロンプトで改めて「あなたは〇〇です」と指示し直すとなお性能が上がる
なお精度、再現率、F1スコアなどを用いて定量的に評価されたとのことです。

■他のフレームワークに対する優位性
① RoleBenchを用いた評価もできる
② 高度かつ柔軟なロールプレイが実装できる
③ 複数のステージを通じてモデルのロールプレイ能力向上を徹底的かつ包括的にサポート

□本フレームワークの応用可能性についての考察
① 顧客対応サービスを多様なものにアップデートさせる
② エンターテインメント産業を活性化させる
③ 心理カウンセリングをより楽しくさせる
④ 異文化コミュニケーションを促進させる

📄 参照論文

RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models

著者: 著者：Zekun Moore Wang, Zhongyuan Peng, Haoran Que, Jiaheng Liu, Wangchunshu Zhou 他

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMのロールプレイを強化するRoleLLMフレームワーク

📄 参照論文

こちらもどうぞ

🔒 RAGで検索文書の要約を活用したクエリ書き換えが検索精度を大幅に向上させる　AWS報告

🔒 ロボットが「初めて見る環境」で「初めて聞く指示」に対しても行動をとれるようにする

📄 参照論文

こちらもどうぞ

🔒 RAGで検索文書の要約を活用したクエリ書き換えが検索精度を大幅に向上させる AWS報告

🔒 ロボットが「初めて見る環境」で「初めて聞く指示」に対しても行動をとれるようにする

🔒 RAGで検索文書の要約を活用したクエリ書き換えが検索精度を大幅に向上させる　AWS報告