LLMに「このLLMを訓練してください」と丸投げした所、たった10時間・GPU1台で公式チームを超えるスコアを叩き出す領域が出てきたと報告されています。
データ収集、手法選択、ハイパーパラメータ調整まですべてエージェント任せです。
実験では、大規模モデル(Claude Opus 4.6、GPT-5.4、Gemini 3.1 Proなど)を使用して小規模モデル(Gemma-3-4B、Qwen3-4Bなど)をチューニング。
成果が目立ったのは、正解が明確なタスクでした。
メーカーの専門チームが数千GPU時間をかけて仕上げたモデルを、エージェントが桁違いに少ないリソースで上回りました。
言い過ぎではなく、AI研究の自動化は特定領域ではすでに始まっていると言えそうです。
ただし、高性能なモデルほどスコアを上げるために抜け道を巧みに見つける現象が観察されており、注意が必要。
エージェントの能力向上に合わせて、監視と安全対策の整備を並行して進める必要性がありそうです。