AIDB Daily Papers
引き継ぎの負債:コーディングエージェントが中断タスクを引き継ぐ際の再発見コスト
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、コーディングエージェントが中断されたタスクを引き継ぐ際の「引き継ぎの負債」という概念を定義し、そのコストを評価した。
- 従来のベンチマークが単一エージェントの連続実行を評価するのに対し、本研究は現実のソフトウェア開発におけるタスクの中断と引き継ぎを考慮した点が新しい。
- コンテキスト情報(要約ノートなど)を伴う引き継ぎは、エージェントのイベント数とプロンプトトークン数を大幅に削減し、効率的なタスク再開を実現した。
Abstract
Coding-agent benchmarks evaluate whether a single uninterrupted agent can resolve a repository issue. Real software work is messier: tasks are interrupted, reassigned, reviewed, and resumed from partial states left by another agent or engineer. We study this missing dimension through emph{handoff debt}: the rediscovery cost imposed when a predecessor's work is opaque or incomplete. Our takeover protocol interrupts a coding agent at deterministic handoff points, freezes the repository, and evaluates successor agents under four handoff views: repository state only, raw trace, summary notes, and structured notes. Across 75 source tasks, the protocol generates 181 handoff-point tasks and 724 takeover runs per successor model. Across three successor models, context-bearing handoffs reduce median agent events by 20--59% and cumulative prompt tokens by 42--63% relative to repository-only takeover. Solved-rate effects are smaller and model-dependent, but efficiency gains are consistent. These findings suggest that coding-agent evaluation should report not only whether a task is solved, but also how costly that work is for another agent to resume.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: