OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮

本記事では、OpenAIが開発した「機械学習タスクにおけるAIエージェントの能力を評価する新しいベンチマーク」MLE-benchを紹介します。実世界で必要とされる複雑で多岐にわたるスキルセットを総合的に評価することを目的としたデータセットです。

研究者らはこのベンチマークをどのように作成したのか、および現在の最先端モデルはどれほどの性能なのかをテストしました。

参照論文情報

タイトル：MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

著者：Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry

研究機関：OpenAI

背景

最近ではLLMの能力において、プログラミングや機械学習の分野で目覚ましい進展が見られています。一部のモデルは、コード生成や機械学習タスクにおいて人間と同等か、それ以上の性能を示すようになってきました。

モデルの評価方法には、単純なコーディング能力や特定の機械学習タスクの性能を測るものが多くあります。例えば、自然言語の説明からコードを生成する能力を測定したり、個別の機械学習問題を解く能力を評価したりするものです。
しかし、これまでの評価方法には、実際の機械学習エンジニアリングで求められる複雑で多様なスキルを十分に評価できないという課題があります。

実世界の機械学習エンジニアリングでは、データの前処理、モデルの設計と訓練、実験の実行、結果の分析など、様々なスキルが必要とされます。また、長期的なプロジェクト管理や複雑な問題に対する試行錯誤も重要です。そのため、モデルにおける上記の能力を総合的に評価できるベンチマークが求められています。

LLMがこのような複雑なタスクを自律的に実行できるようになれば、科学研究や技術開発がさらにスピードアップする可能性があります。（ただし一方でリスクも考えなければいけません）

このような背景から、OpenAIの研究者らは「MLE-bench」という新しいベンチマークを開発しました。Kaggleの機械学習コンペティションを基にした実践的な評価システムです。エージェントの能力を人間の専門家と直接比較し、より正確にAIの進歩を測定することができると考えられています。

以下で詳しく紹介します。