次回の更新記事:AIエージェントに「私のこと」をテキストではなくコ…(公開予定日:2026年06月29日)
AIDB Daily Papers

NatureBench:AIコーディングエージェントはNature誌掲載論文のSOTAを超えるか?

原題: NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
著者: Yuru Wang, Lejun Cheng, Yuxin Zuo, Sihang Zeng, Bingxiang He, Che Jiang, Junlin Yang, Yuchong Wang, Kaikai Zhao, Weifeng Huang, Kai Tian, Zhenzhao Yuan, Jincheng Zhong, Weizhi Wang, Ning Ding, Bowen Zhou, Kaiyan Zhang
公開日: 2026-06-23 | 分野: LLM AI 研究 cs.CL AIエージェント AI評価

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • NatureBenchは、Nature誌掲載論文から抽出した90のタスクでAIコーディングエージェントの発見能力を評価するベンチマークである。
  • 最先端のエージェントでも、Web検索無効下では17.8%のタスクしかSOTAを超えられず、真の科学的発明ではなく既存手法の応用が主であった。
  • エージェントの失敗は、手法選択の間違いや計算資源不足が原因であり、タスクの誤解ではないことが分析により明らかになった。

Abstract

We introduce NatureBench, a cross-discipline benchmark of 90 tasks distilled from peer-reviewed Nature-family publications, designed to evaluate whether AI coding agents can move beyond reproduction toward discovery on real scientific problems. NatureBench is built on NatureGym, an automated pipeline that constructs a standardized, per-task containerized environment from a source paper, addressing the environment-fragmentation problem that has limited the credibility of prior agent-on-research benchmarks. Evaluating ten frontier agent configurations under a strict web-search-disabled protocol, we find that the strongest model surpasses SOTA on only 17.8% of tasks under the g>0.1 criterion. Analysis of method pathways reveals that agents succeed primarily through methodological translation, converting scientific tasks into familiar supervised prediction problems, rather than through genuine scientific invention. Failures are dominated by wrong method choice and insufficient compute budget, not by task misunderstanding. We release the benchmark, the NatureGym pipeline, and a public leaderboard with maintainer-side reproduction. Code: https://github.com/FrontisAI/NatureBench

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

関連するAIDB記事