LLMの社会性を測る対話型評価ツールSOTOPIA

2023.10.25

エージェント（AIエージェント、ツール使用、自律的なタスク実行、MCP、computer use）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

“人間” と “GPT-4” を、どちらも「社会的知能エージェント」と捉え、われわれ人間を含めたエージェントの社会的知能を測定するフレームワークが開発されました。

両者を比較した結果、人間はGPT-4よりも目標達成率や社会的常識、戦略的コミュニケーションスキルが優れていました。
しかし、GPT-4は “秘密を守る力” で人間に匹敵しました。

カーネギーメロン大学の研究者らによる発表です。

@ Xuhui Zhou et al., “SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents”

GPT-4をはじめとするLLMエージェントが社会的なふるまいを見せることが知られてきました。
社会は人間が基準になっています。
しかし、そもそも人間の社会的知能を評価するためのフレームワーク自体が不足しています。

そこで研究者らは、多面的な評価ツールである『SOTOPIA-EVAL』を開発しました。

■『SOTOPIA-EVAL』の仕組み
① 社会的知能における多次元の評価フレームワーク
② 社会学、心理学、経済学からインスパイア
③ 人間とLLMが対話する世界『SOTOPIA』で使用する
④ 複数の異なる対話シナリオエピソードを用意
⑤ 各エピソードの終了時ごとに知能が評価される

■評価基準
・目標達成率
・社会的常識
・戦略的コミュニケーションスキル

■実験結果
人間とGPT-4がバーチャル上で対話し社会的知能が評価されました。結果は以下の通りです。
① 人間はGPT-4よりも目標達成率が高い
② さらに、社会的常識推論と戦略的コミュニケーションスキルも人間の方が優れている
③ しかしGPT-4は、人間レベルの範囲に到達している
④ さらにGPT-4は社会的規範に従う力や、秘密を守る力で、しばしば人間よりも高いスコアを獲得する

■主な結論と注意点
① 『SOTOPIA』および『SOTOPIA-EVAL』はエージェントの社会的知能を評価するための有望な評価ツールである
② 被験者の属性はあまり明らかにされていないが、実験結果を大きく左右するファクターである可能性が高い

📄 参照論文

論文情報と関連研究

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMの社会性を測る対話型評価ツールSOTOPIA

📄 参照論文

こちらもどうぞ

🔒 Gemini 3.5 Flashまでの軌跡を読み解く

複数LLMに査読させると創作の多様性が保たれる