次回の更新記事:AIエージェントで論文内容を再現するワークフロー(…(公開予定日:2026年04月30日)
AIDB Daily Papers

LLMエージェントによる自律的AI研究:アーキテクチャ探索か、ハイパーパラメータ調整か?

原題: Auto Researching, not hyperparameter tuning: Convergence Analysis of 10,000 Experiments
著者: Xiaoyi Li
公開日: 2026-03-16 | 分野: LLM コンピュータビジョン 機械学習 AI 動画 自動化 実験 モデル 探索

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • LLMエージェント(Claude Opus、Gemini 2.5 Pro)に機械学習実験を自律設計させ、アーキテクチャ探索とハイパーパラメータ調整のどちらを行うか検証した。
  • 10万を超える組み合わせ空間で1万件以上の実験を分析した結果、アーキテクチャの選択が性能の分散の94%を説明し、真のアーキテクチャ発見を示唆する。
  • V-JEPA 2ビデオ特徴量とZipformer時間エンコーダの組み合わせが優れた性能を発揮し、LLM誘導探索はランダム探索よりも効率的に高品質な領域に集中した。

Abstract

When LLM agents autonomously design ML experiments, do they perform genuine architecture search -- or do they default to hyperparameter tuning within a narrow region of the design space? We answer this question by analyzing 10,469 experiments executed by two LLM agents (Claude Opus and Gemini 2.5 Pro) across a combinatorial configuration space of 108,000 discrete cells for dashcam collision detection over 27 days. Through ANOVA decomposition, we find that textbf{architectural choices explain 94% of performance variance} ($F = 1324$, $η^2 = 0.94$), while hyperparameter variation within a fixed architecture explains only 6%. Cross-task validation on a second collision dataset confirms this finding (75% architecture-explained variance) with a emph{different} winning backbone, confirming genuine architecture discovery. The agents' key contribution is discovering that V-JEPA,2 video features with Zipformer temporal encoders achieve 0.9245 AP -- a configuration no human proposed -- and concentrating search on productive architectural regions: at $N = 50$, LLM-guided search reaches AP $= 0.985$ versus $0.965$ for from-scratch random search. Post-bugfix convergence follows a power law ($c = 0.11$, $R^2 = 0.93$); the low exponent reflects the cost of broad exploration, not inefficiency, since the LLM discovers qualitatively better regions than random or Bayesian baselines. We characterize multi-agent search dynamics via entropy cycles and Jensen--Shannon specialization, providing the first large-scale empirical framework for LLM-guided combinatorial ML experiment design.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事