LLMの心の理論ベンチマーク「OpenToM」登場

2024.02.24

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMの「心の理論」能力を詳しく調べるためのベンチマーク『OpenToM』が開発され、複数のモデルの能力が検証されました。

実験の結果、LLMは「他者の視点から見た物理的世界の因果関係」をある程度理解しているとのことです。

アランチューリング研究所などの研究者らによる報告です。

“OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models”より

■研究の背景
– 他者が自分とは異なる見方で世界を知覚していることを認識する能力を「心の理論」という
– LLMにおける「心の理論」の能力向上が望まれている
– 多様なストーリーと性格に関する情報で構成されるデータセットが必要
→『OpenToM』を開発して実験することに

■『OpenToM』の特徴
– 696のストーリーを含む（いずれも2人の主人公）
– GPT-3.5/4による創作
– 物語の理解度を確認するための23項目の質問を含む
– 人間による解釈をベースラインとしている

■実験と結果
– Llama2-Chat（7B、13B、70B）、Mixtral-8x7B-Instruct、GPT-3.5、GPT-4を評価
– GPT-4が他モデルを大きく引き離す性能を示した
– 物理的な側面からの理解と比べて、心理的な側面からの理解はまだ不十分な可能性がある
– OpenToMは人間評価によって妥当なデータセットだと判定された

📄 参照論文

論文情報：

📎 論文を読む（doi.org）

X（Twitter）で見る

LLMの心の理論ベンチマーク「OpenToM」登場

📄 参照論文

関連記事

🔒 ChatGPTなどのLLMにユーザーの性格特性を分析させる手法『PsyCoT』と実行プロンプト

🔒 自信過剰になるLLM 長く考えさせることの副作用と検索機能が果たす役割

🔒 科学研究の自動化だけでなく人間と協働する「コパイロットモード」も備えるLLMエージェント登場

🔒 GPT-Calls：コールセンターの会話データを大規模言語モデルを活用して分析

🔒 今週の注目AI論文リスト（論文公開日2025/6/16～6/20）

🔒 pix2pix3D：簡単な線を描くだけで、3Dコンテンツを生成する。