AIDB Daily Papers
LLMエージェントの系統的コーパスレベルトレース診断ツール「Insights Generator」
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMエージェントの失敗診断を自動化する「Insights Generator」を開発した。
- 本研究は、大規模な実行トレース群から系統的なパターンを発見し、根拠に基づいた洞察を生成する手法を提案する点で重要である。
- 開発したシステムは、人間による診断と比較して性能を30.4%向上させ、コーディングエージェントの安定した改善を示した。
Abstract
Diagnosing failures in LLM agents remains largely manual. Practitioners inspect a small subset of execution traces, form ad-hoc hypotheses, and iterate. This process misses patterns that only emerge across trace populations and does not scale to production corpora where individual traces span tens of thousands of tokens. We formalize the problem of corpus-level trace diagnostics. Given a corpus of execution traces, the goal is to produce grounded natural-language insights that characterize systematic behavioral patterns across trace groups, each linked to supporting evidence. We present the Insights Generator (IG), a multi-agent system that answers diagnostic questions by proposing and testing hypotheses across the trace corpus to produce an evidence-backed insights report. We evaluate IG across qualitative and objective dimensions, spanning rubric-based report assessment and downstream performance improvements achieved by implementing IG insights. Human experts using IG reports improve scaffold performance by 30.4pp over the unmodified baseline scaffold, and coding agents leveraging IG-derived insights show consistent and stable gains. Across benchmarks, IG's scout-investigator architecture produces findings comparable in detection coverage to competing approaches, while domain experts rated IG reports as leading depth and evidence quality.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: