AIDB Daily Papers
大規模言語モデルによるソフトウェア設計洗練のためのコンソーシアム:マルチエージェント協調トポロジーの制御実験
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 12種類のマルチエージェントLLM協調トポロジーを用いたソフトウェアアーキテクチャ設計の制御実験を行った。
- 構造的敵対型(v4b)とクロスモデルレビューが最も優れた設計手法であり、評価者間の多様性も重要な発見となった。
- 並列マージ手法は、トークン枯渇やフランケンシュタイン効果により、設計品質が著しく低下することが明らかになった。
Abstract
We present a controlled experiment evaluating 12 multi-agent LLM collaboration topologies for software architecture design. Using a $2times2times2$ factorial design (Authority $times$ Roles $times$ Dynamics), we conducted 520 experimental runs across 8 design tasks of varying complexity, with 5 repetitions each. Designs were evaluated on a 12-dimensional rubric by three independent automated evaluators (GPT-OSS 120B, Claude Opus 4.6, Claude Sonnet 4.6). We report four core findings. First, structural adversarial (v4b) ranks #1 by ensemble -- a prompt-engineered adversarial variant that demands rewrite mandates rather than patches (weighted ensemble: 4.637/5.0). Second, cross-model review wins unanimously at #2 -- generate with one model, review with another -- ranking #2 by all three evaluators (weighted ensemble: 4.606). Third, evaluator diversity is itself a finding -- all three evaluators agree v4b is best and v3 is worst, but disagree sharply on v2b (Claude d=1.44 vs. GPT-OSS d=0.45), revealing how different model families weight design qualities. Fourth, parallel merge is fundamentally broken -- all three evaluators place merge variants in the bottom tier (3.65-3.79), due to token starvation and the Frankenstein effect. The weighted ensemble ($2times$Opus + $2times$Sonnet + $1times$GPT-OSS) provides robust rankings across 520 runs, confirmed through independent cross-validation.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: