最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

「o1-preview」は自己評価メカニズムを持つ 計画立案中に自分の行動をチェックして修正 

2024.10.18
深堀り解説

本記事では、OpenAIの最新モデル「o1」の計画立案能力に関する研究を紹介します。

従来の研究が計画立案における「単純な成功率」のみに着目していたのに対し、この研究では「実現可能性」、「最適性」、「汎用性」という3つの観点から詳細な評価を行っています。

さらに、タスクの複雑さによる性能変化も調査しており、o1の実世界での応用可能性を探る上で重要な知見を提供しています。

参照論文情報

  • タイトル:On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability
  • 著者:Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang
  • 研究機関:テキサス大学オースティン校

背景

LLMは様々な推論タスクで驚くべき結果を示していますが、「計画立案」の分野ではその能力がまだ十分に検証されていません。中でもOpenAIが最近発表した「o1モデル」は、数学や コーディングなどの問題解決において大きな進歩を遂げており、計画立案の分野でも同様の可能性を秘めていると期待されています。

これまでの研究では、LLMを使った計画立案の”成功率”のみに焦点が当てられがちでした。しかし、実際の応用を考えると、単に計画を立てられるかどうかだけでなく、その計画の質や汎用性も重要になってきます。

そこで今回テキサス大学の研究者らは、o1モデルの計画立案能力を、以下の3つの観点から詳しく評価することにしました。

  1. 与えられた制約条件を守りながら、目標を達成する計画を立てられるか
  2. 無駄な手順を省いた効率的な計画を立てられるか
  3. 学習していない新しい状況でも適切な計画を立てられるか

このような観点で分析することで、o1モデルの強みと弱みをより明確にし、今後の計画立案システムの改善につながる知見が得られると考えました。

また、単純なタスクから複雑なタスクまで、様々な難易度の問題を用意することで、モデルの性能がタスクの複雑さによってどのように変化するかも調べられています。LLMを実世界の複雑な計画立案問題に応用する際の課題を把握する上で重要なことです。

以下で詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事