AIDB Daily Papers
記憶の限界を超えて:古典的な論理パズルでLLMの還元型推論と認識的推論を区別する
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMが持つ認識的推論能力を、古典的な論理パズルを用いて評価し、その行動を記憶と推論の二分法で捉える従来の評価方法に疑問を投げかけました。
- 大規模モデルでは、記憶は既知の問題への還元という特殊なケースとして理解すべきであり、還元を困難にする修正を段階的に加えることで、モデルの真の推論能力を測る新たな評価軸を導入しました。
- 実験の結果、一部のモデルは還元によって成功するものの、認識的推論が必要になると全てのモデルが苦戦し、LLMの推論能力には限界があることが示唆されました。
Abstract
Epistemic reasoning requires agents to infer the state of the world from partial observations and information about other agents' knowledge. Prior work evaluating LLMs on canonical epistemic puzzles interpreted their behavior through a dichotomy between epistemic reasoning and brittle memorization. We argue that this framing is incomplete: in recent models, memorization is better understood as a special case of reduction, where a new instance is mapped onto a known problem. Instead, we introduce a reduction ladder, a sequence of modifications that progressively move instances away from a canonical epistemic puzzle, making reduction increasingly difficult while preserving the underlying logic. We find that while some large models succeed via reduction, other models fail early, and all models struggle once epistemic reasoning is required.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: