次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMの心の理論ベンチマーク「OpenToM」登場

推論・思考(論理推論、Chain-of-Thought、数学的推論、問題解決)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMの「心の理論」能力を詳しく調べるためのベンチマーク『OpenToM』が開発され、複数のモデルの能力が検証されました。

実験の結果、LLMは「他者の視点から見た物理的世界の因果関係」をある程度理解しているとのことです。

アランチューリング研究所などの研究者らによる報告です。

“OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models”より

■研究の背景
– 他者が自分とは異なる見方で世界を知覚していることを認識する能力を「心の理論」という
– LLMにおける「心の理論」の能力向上が望まれている
– 多様なストーリーと性格に関する情報で構成されるデータセットが必要
→『OpenToM』を開発して実験することに

■『OpenToM』の特徴
– 696のストーリーを含む(いずれも2人の主人公)
– GPT-3.5/4による創作
– 物語の理解度を確認するための23項目の質問を含む
– 人間による解釈をベースラインとしている

■実験と結果
– Llama2-Chat(7B、13B、70B)、Mixtral-8x7B-Instruct、GPT-3.5、GPT-4を評価
– GPT-4が他モデルを大きく引き離す性能を示した
– 物理的な側面からの理解と比べて、心理的な側面からの理解はまだ不十分な可能性がある
– OpenToMは人間評価によって妥当なデータセットだと判定された

📄 参照論文

論文情報:

関連記事