LLMロールプレイの性格一致度を評価するフレームワーク

2023.10.30

エージェント（AIエージェント、ツール使用、自律的なタスク実行、MCP、computer use）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

キャラクターになりきっているLLMにインタビュー形式で「本当にそのキャラの性格なのか」検証するフレームワークが開発されました。

なお32体のロールプレイングチャットボットに本フレームワークを適用したところ、ファンによる性格の認識と82.8%の一致率だったとのこと。

チャットハルヒの開発者などによる新しい研究です。

@ Xintao Wang et al., “Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots”

「LLMの性格分析」や「LLMにキャラを演じさせる」ツールはあっても、「キャラを演じるLLMの性格分析」ツールはありませんでした。
しかし、キャラの性格をしっかり模倣しているのかは気がかりなポイントです。

そこで研究者らは、キャラになりきるLLMを性格分析にかけるフレームワークを開発しました。

■フレームワークの主な特徴
① Big FiveとMBTIの質問を基にしている
② オープンエンデッド（回答が自由形式）な質問で性格を評価
③ 一連の質問はLLMによって変換・検証される
④ 質問はロールプレイングチャットボットだけでなく、人間にも適用可能
⑤ 質問は特定のキャラクターの背景に合わせてカスタマイズ可能
（ただし今後より良くするのが課題でもある）

■フレームワークの性能評価テスト
① ChatHaruhiプロジェクトの32のロールプレイングチャットボットを対象として実験
② 人間の心理学者によるBig Fiveのスコアとフレームワークによる評価を比較
③ ファンウェブサイトからMBTIの性格ラベルを収集し、ロールプレイングエージェントと人間の認識との一致度を自動評価

■性能評価テストの結果
① オープンエンデッドの回答の評価は、閉じた選択肢に基づく16Personality APIの評価よりも正確であった
② MBTIの評価はユーザーの認識と82.76%の一致率であった

■研究者らによる主な結論
① キャラを演じるLLMの評価で役立つフレームワークとして有望である可能性
② 既存のLLMベースのロールプレイングチャットボットは、キャラクターの性格をよく反映している可能性

■注意点を考察
※論文に基づいて具体化しています。
① 本ツールで検証対象となったチャットハルヒの開発者が研究グループにいるため、内部的なバイアスがある恐れも存在
② Big Fiveは科学的な妥当性が高いとされるがMBTIは科学的な指標としては評価されていない
③ 再現性については検証が必要
④ 専門家（心理学者）による一定の評価されているが範囲の詳細は検証が必要

📄 参照論文

論文情報と関連研究

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMロールプレイの性格一致度を評価するフレームワーク

📄 参照論文

こちらもどうぞ

🔒 LLMプロジェクト開発に必要な新しい概念「AgentOps」とは

🔒 プロンプトを遺伝的アルゴリズムで自動最適化するプロンプトエンジニアリング手法『Promptbreeder（プロンプトブリーダー）』