AIDB Daily Papers
コード空間理論:コードAIエージェントはソフトウェアアーキテクチャを理解できるか?
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- AIコードエージェントのアーキテクチャ理解能力を測るToCSベンチマークを提案し、部分的な観測下で構造化された信念状態を構築させ評価する。
- 複雑なコードベースにおけるモジュール間の依存関係や設計意図の理解は、AIエージェントが苦戦する分野であり、その能力評価は重要である。
- LLMエージェントは意味的なエッジを発見できる一方、信念の外部化が課題であり、構造化JSONへのシリアライズ能力が性能に影響することが判明した。
Abstract
AI code agents excel at isolated tasks yet struggle with complex, multi-file software engineering requiring understanding of how dozens of modules relate. We hypothesize these failures stem from inability to construct, maintain, and update coherent architectural beliefs during codebase exploration. We introduce Theory of Code Space (ToCS), a benchmark that evaluates this capability by placing agents in procedurally generated codebases under partial observability, requiring them to build structured belief states over module dependencies, cross-cutting invariants, and design intent. The framework features: (1) a procedural codebase generator producing medium-complexity Python projects with four typed edge categories reflecting different discovery methods -- from syntactic imports to config-driven dynamic wiring -- with planted architectural constraints and verified ground truth; (2) a partial observability harness where agents explore under a budget; and (3) periodic belief probing via structured JSON, producing a time-series of architectural understanding. We decompose the Active-Passive Gap from spatial reasoning benchmarks into selection and decision components, and introduce Architectural Constraint Discovery as a code-specific evaluation dimension. Preliminary experiments with four rule-based baselines and five frontier LLM agents from three providers validate discriminative power: methods span a wide performance range (F1 from 0.129 to 0.646), LLM agents discover semantic edge types invisible to all baselines, yet weaker models score below simple heuristics -- revealing that belief externalization, faithfully serializing internal understanding into structured JSON, is itself a non-trivial capability and a first-order confounder in belief-probing benchmarks. Open-source toolkit: https://github.com/che-shr-cat/tocs
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: