AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,117件) 短信(811件) 🔒 論文(55,470件) 🔒

OpenAIの新しいモデルo1-preview、従来のLLMと比べて「計画能力」で圧倒的な性能向上

2024.09.262025.03.08

本記事では、アリゾナ州立大の研究グループによるLLMの計画能力を評価した研究を紹介します。

研究チームは計画能力を測定するための自作のベンチマークであるPlanBenchを用いて、OpenAIのo1を含む最新モデルの性能を分析しました。様々な難易度の問題で、「精度」「効率性」「コスト」「結果の保証（正確性や信頼性）」を評価しています。

その結果、o1は大幅な性能向上を示しました。しかし、まだまだ課題も残されています。

参照論文情報

タイトル：LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench

背景

人工知能の分野では、目標を達成するための行動計画を立てる能力が非常に重要視されてきました。計画を立てる能力は人間の知性のコアな部分だと考えられているためです。

やがてLLMが登場し、研究者たちは、「LLMにも人間のような計画能力があるのではないか」と考えるようになりました。そして、2022年にPlanBenchというベンチマークが開発されました。LLMの計画能力を評価するためのテストです。

しかし、これまで多くの新しいモデルが登場してきたにもかかわらず、PlanBenchでの成績はあまり向上しませんでした。これは意外な結果でした。

そんな中、OpenAIが新しいモデル「o1」を発表しました。o1は従来のLLMとは異なり、推論に特化して設計・訓練されたモデルだとされています。OpenAIはこれを「大規模推論モデル（LRM）」と呼んでいます。

この新しいモデルの登場を機に、研究者たちは改めてPlanBenchを使って、最新のLLMやLRM（要するにo1）の計画能力を総合的に評価することにしました。

その結果、o1の性能は確かに従来のモデルを大きく上回っていました。しかし、まだ完璧とは言えない結果でした。

以下で詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

プレミアム会員の特典

ログイン