最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

OpenAIの新しいモデルo1-preview、従来のLLMと比べて「計画能力」で圧倒的な性能向上

2024.09.26
深堀り解説

本記事では、アリゾナ州立大の研究グループによるLLMの計画能力を評価した研究を紹介します。

研究チームは計画能力を測定するための自作のベンチマークであるPlanBenchを用いて、OpenAIのo1を含む最新モデルの性能を分析しました。様々な難易度の問題で、「精度」「効率性」「コスト」「結果の保証(正確性や信頼性)」を評価しています。

その結果、o1は大幅な性能向上を示しました。しかし、まだまだ課題も残されています。

参照論文情報

  • タイトル:LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench
  • 著者:Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati
  • 研究機関:Arizona State University

背景

人工知能の分野では、目標を達成するための行動計画を立てる能力が非常に重要視されてきました。計画を立てる能力は人間の知性のコアな部分だと考えられているためです。

やがてLLMが登場し、研究者たちは、「LLMにも人間のような計画能力があるのではないか」と考えるようになりました。そして、2022年にPlanBenchというベンチマークが開発されました。LLMの計画能力を評価するためのテストです。

しかし、これまで多くの新しいモデルが登場してきたにもかかわらず、PlanBenchでの成績はあまり向上しませんでした。これは意外な結果でした。

そんな中、OpenAIが新しいモデル「o1」を発表しました。o1は従来のLLMとは異なり、推論に特化して設計・訓練されたモデルだとされています。OpenAIはこれを「大規模推論モデル(LRM)」と呼んでいます。

この新しいモデルの登場を機に、研究者たちは改めてPlanBenchを使って、最新のLLMやLRM(要するにo1)の計画能力を総合的に評価することにしました。

その結果、o1の性能は確かに従来のモデルを大きく上回っていました。しかし、まだ完璧とは言えない結果でした。

以下で詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事