「o1-preview」は自己評価メカニズムを持つ計画立案中に自分の行動をチェックして修正

「o1-preview」は自己評価メカニズムを持つ　計画立案中に自分の行動をチェックして修正　

本記事では、OpenAIの最新モデル「o1」の計画立案能力に関する研究を紹介します。

従来の研究が計画立案における「単純な成功率」のみに着目していたのに対し、この研究では「実現可能性」、「最適性」、「汎用性」という3つの観点から詳細な評価を行っています。

さらに、タスクの複雑さによる性能変化も調査しており、o1の実世界での応用可能性を探る上で重要な知見を提供しています。

参照論文情報

タイトル：On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability

著者：Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang

LLMは様々な推論タスクで驚くべき結果を示していますが、「計画立案」の分野ではその能力がまだ十分に検証されていません。中でもOpenAIが最近発表した「o1モデル」は、数学やコーディングなどの問題解決において大きな進歩を遂げており、計画立案の分野でも同様の可能性を秘めていると期待されています。

これまでの研究では、LLMを使った計画立案の”成功率”のみに焦点が当てられがちでした。しかし、実際の応用を考えると、単に計画を立てられるかどうかだけでなく、その計画の質や汎用性も重要になってきます。

そこで今回テキサス大学の研究者らは、o1モデルの計画立案能力を、以下の3つの観点から詳しく評価することにしました。

このような観点で分析することで、o1モデルの強みと弱みをより明確にし、今後の計画立案システムの改善につながる知見が得られると考えました。

また、単純なタスクから複雑なタスクまで、様々な難易度の問題を用意することで、モデルの性能がタスクの複雑さによってどのように変化するかも調べられています。LLMを実世界の複雑な計画立案問題に応用する際の課題を把握する上で重要なことです。

以下で詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。