LLMの「心の理論」能力を詳しく調べるためのベンチマーク『OpenToM』が開発され、複数のモデルの能力が検証されました。
実験の結果、LLMは「他者の視点から見た物理的世界の因果関係」をある程度理解しているとのことです。
アランチューリング研究所などの研究者らによる報告です。
“OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models”より
■研究の背景
– 他者が自分とは異なる見方で世界を知覚していることを認識する能力を「心の理論」という
– LLMにおける「心の理論」の能力向上が望まれている
– 多様なストーリーと性格に関する情報で構成されるデータセットが必要
→『OpenToM』を開発して実験することに
■『OpenToM』の特徴
– 696のストーリーを含む(いずれも2人の主人公)
– GPT-3.5/4による創作
– 物語の理解度を確認するための23項目の質問を含む
– 人間による解釈をベースラインとしている
■実験と結果
– Llama2-Chat(7B、13B、70B)、Mixtral-8x7B-Instruct、GPT-3.5、GPT-4を評価
– GPT-4が他モデルを大きく引き離す性能を示した
– 物理的な側面からの理解と比べて、心理的な側面からの理解はまだ不十分な可能性がある
– OpenToMは人間評価によって妥当なデータセットだと判定された