LLMの心の理論を測る新評価パラダイムT4D

2023.10.11

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMの「心の理論」における能力を評価するフレームワーク『Thinking for Doing (T4D)』が登場しました。

GoogleやDeepMind、カーネギーメロン大学などの研究者らによる発表です。
○ Pei Zhou et al., “How FaR Are Large Language Models From Agents with Theory-of-Mind?”

LLMが「心の理論（Theory of Mind, ToM」をどれだけ持っているかは不明確であり、かつ大きな関心テーマでした。
以前から研究成果に上がっているように、LLMがToMを駆使することが広範なタスク能力に大きく影響すると考えられているためです。
しかし従来の心理学的テストではLLMのToM能力の評価は十分には出来ないとされています。

そこで研究者らは、新しい評価パラダイム「Thinking for Doing (T4D)」を提案しています。同時に、「Foresee and Reflect (FaR)」という新しいフレームワークの導入を促しています。

■「FaR」フレームワークとは
LLMに以下の推論を構造的に可能にし、心の理論に基づく具体的なステップを促す
① 将来のイベントを予測（Foresee）
② それに対する行動を考慮（Reflect）

■評価パラダイム「Thinking for Doing (T4D)」
以下の観点でLLMのToM能力を評価する
① 他者の心の状態（信念、願望、意図など）についてどれだけ効果的に推論できるか
② 推論した上でいかに行動に移せるか

■実験の結果
① LLMは一般的なタスクで高い性能を示す
② ToM関連のタスクではまだ限界がある

■結論
「FaR」フレームワークと評価パラダイム「Thinking for Doing (T4D)」の組み合わせによって、効率的にLLMのToM能力を評価することができる

□追加の考察
このようなフレームワークによって、LLMのToM能力を評価することで、LLMの能力をより改善する糸口が見え、将来的な活用範囲が広がる可能性があります。

一方で、LLMが人間のように「心の理論」を持つようになったとき、機械に対してどのような倫理的ポリシーを持つべきかは議論すべきテーマかもしれません。

📄 参照論文

論文情報と関連研究

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMの心の理論を測る新評価パラダイムT4D

📄 参照論文

こちらもどうぞ

🔒 LLMアプリが安全に動くという思い込み　外部から守るセキュリティ設計

🔒 RAGの進化形と話題のAgentic RAG、ふつうのRAGと何が違うのか

📄 参照論文

こちらもどうぞ

🔒 LLMアプリが安全に動くという思い込み 外部から守るセキュリティ設計

🔒 RAGの進化形と話題のAgentic RAG、ふつうのRAGと何が違うのか

🔒 LLMアプリが安全に動くという思い込み　外部から守るセキュリティ設計