次回の更新記事:AIによるレガシーシステムのモダナイズ、暗黙の業務…(公開予定日:2026年06月25日)
AIDB Daily Papers

マルチモーダルAIエージェントはツールの利用で本当に進化するのか?能力向上の体系的研究

原題: Do Multimodal Agents Really Benefit from Tool Use? A Systematic Study of Capability Gains
著者: Garvin Guo, Donglei Yu, Yu Chen, Xiang Wang, Shuai Li, Xinpei Zhao, Huaxing Liu, Qinghao Wang, Minpeng Liao
公開日: 2026-06-01 | 分野: マルチモーダル コンピュータビジョン cs.AI cs.CV AIエージェント AI評価

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • マルチモーダルAIエージェントにおけるツールの利用が、ベンチマーク性能向上に寄与しているか体系的に検証した。
  • ツールの利用は一貫した性能向上をもたらさず、生成トークンコストの削減にも寄与しないことが明らかとなった。
  • 分析対象のAIエージェントは、ツールの利用方法を学習する傾向が強く、ツールが能力を拡張しているとは言えないと結論づけられた。

Abstract

Tool-augmented multimodal agents show strong benchmark gains, often taken as evidence that agents have learned to use tools. We argue that this interpretation can be premature: a tool-call trace alone does not show whether the tool supplied answer-critical information. We study two representative ``thinking with images'' agents, Thyme and DeepEyesV2, across real-world understanding, OCR, chart understanding, and mathematical reasoning. Each agent is compared with its Tool-Free counterpart and with a Pure-Text Reasoner trained from the same source pool without tool-calling trajectories. Tool access yields little consistent aggregate improvement, does not reliably reduce generated-token cost, and leaves only a small tool-only solved set: 93% of DeepEyesV2's tool-solved problems and 96% of Thyme's are also solved by at least one non-tool setting. Mechanism ablations further show that the full tool-use loop does not consistently outperform either the tool-call format or the returned execution result alone. In the settings we study, the analyzed agents appear to learn tool-calling patterns more reliably than tool-contributed capabilities, suggesting that evaluation should distinguish tool availability from whether tools actually expand what agents can solve.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事