次回の更新記事:オープンモデルなのにClaudeなどに匹敵するとされる…(公開予定日:2026年06月25日)
AIDB Daily Papers

推論の限界:長文思考の失敗とツール委譲の必要性

原題: The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary
著者: Dongxin Guo, Jikun Wu, Siu Ming Yiu
公開日: 2026-05-29 | 分野: LLM AI cs.CL cs.AI cs.LG AIエージェント

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 長文思考による推論は、決定論的な状態追跡タスクにおいて性能が低下することが明らかになった。
  • この性能低下は、情報理論的な注意機構の容量限界に起因し、特定の推論長を超えると精度が指数関数的に低下する。
  • ツール連携による推論は、純粋なニューラル推論よりも一貫して高い精度を示し、エージェントシステムにおけるハイブリッドアプローチの重要性を示唆した。

Abstract

Extended chain-of-thought reasoning can degrade performance on deterministic state-tracking tasks, not due to preference biases, but limits rooted in the information-theoretic capacity of decoder-only attention. We establish: (1) an Attention Bottleneck Theorem with a complementary achievability construction, bounding state-tracking capacity as $O(H cdot log(L/H) cdot sqrt{d_h})$; (2) a context-dependent error model yielding super-exponential accuracy decay; (3) the State-Space Jaccard metric distinguishing capability from preference failures; (4) a Deterministic Horizon $d^* in [19, 31]$ beyond which tool delegation becomes necessary. Across 12 models and 8 task domains (including SWE-Bench, WebArena, and SQL-Multi), tool-integrated reasoning consistently outperforms neural chain-of-thought; on the primary model suite it reaches 86-94% accuracy versus 24-42% for neural chain-of-thought. Fine-tuning on optimal-length traces yields $<$5% improvement, confirming an architectural ceiling, and high cross-model correlation ($r = 0.81$-$0.91$) indicates these failures are architectural rather than training-specific. Our results provide principled guidance for when pure neural reasoning should yield to hybrid approaches in agentic systems.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事