「o1-preview」は自己評価メカニズムを持つ 計画立案中に自分の行動をチェックして修正 

   

本記事では、OpenAIの最新モデル「o1」の計画立案能力に関する研究を紹介します。

従来の研究が計画立案における「単純な成功率」のみに着目していたのに対し、この研究では「実現可能性」、「最適性」、「汎用性」という3つの観点から詳細な評価を行っています。

さらに、タスクの複雑さによる性能変化も調査しており、o1の実世界での応用可能性を探る上で重要な知見を提供しています。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。


参照論文情報

  • タイトル:On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability
  • 著者:Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang
  • 研究機関:テキサス大学オースティン校

背景

LLMは様々な推論タスクで驚くべき結果を示していますが、「計画立案」の分野ではその能力がまだ十分に検証されていません。中でもOpenAIが最近発表した「o1モデル」は、数学や コーディングなどの問題解決において大きな進歩を遂げており、計画立案の分野でも同様の可能性を秘めていると期待されています。

これまでの研究では、LLMを使った計画立案の”成功率”のみに焦点が当てられがちでした。しかし、実際の応用を考えると、単に計画を立てられるかどうかだけでなく、その計画の質や汎用性も重要になってきます。

そこで今回テキサス大学の研究者らは、o1モデルの計画立案能力を、以下の3つの観点から詳しく評価することにしました。

  1. 与えられた制約条件を守りながら、目標を達成する計画を立てられるか
  2. 無駄な手順を省いた効率的な計画を立てられるか
  3. 学習していない新しい状況でも適切な計画を立てられるか

このような観点で分析することで、o1モデルの強みと弱みをより明確にし、今後の計画立案システムの改善につながる知見が得られると考えました。

また、単純なタスクから複雑なタスクまで、様々な難易度の問題を用意することで、モデルの性能がタスクの複雑さによってどのように変化するかも調べられています。LLMを実世界の複雑な計画立案問題に応用する際の課題を把握する上で重要なことです。

以下で詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP