本記事では、アリゾナ州立大の研究グループによるLLMの計画能力を評価した研究を紹介します。
研究チームは計画能力を測定するための自作のベンチマークであるPlanBenchを用いて、OpenAIのo1を含む最新モデルの性能を分析しました。様々な難易度の問題で、「精度」「効率性」「コスト」「結果の保証(正確性や信頼性)」を評価しています。
その結果、o1は大幅な性能向上を示しました。しかし、まだまだ課題も残されています。
参照論文情報
- タイトル:LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench
- 著者:Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati
- 研究機関:Arizona State University
背景
人工知能の分野では、目標を達成するための行動計画を立てる能力が非常に重要視されてきました。計画を立てる能力は人間の知性のコアな部分だと考えられているためです。
やがてLLMが登場し、研究者たちは、「LLMにも人間のような計画能力があるのではないか」と考えるようになりました。そして、2022年にPlanBenchというベンチマークが開発されました。LLMの計画能力を評価するためのテストです。
しかし、これまで多くの新しいモデルが登場してきたにもかかわらず、PlanBenchでの成績はあまり向上しませんでした。これは意外な結果でした。
そんな中、OpenAIが新しいモデル「o1」を発表しました。o1は従来のLLMとは異なり、推論に特化して設計・訓練されたモデルだとされています。OpenAIはこれを「大規模推論モデル(LRM)」と呼んでいます。
この新しいモデルの登場を機に、研究者たちは改めてPlanBenchを使って、最新のLLMやLRM(要するにo1)の計画能力を総合的に評価することにしました。
その結果、o1の性能は確かに従来のモデルを大きく上回っていました。しかし、まだ完璧とは言えない結果でした。
以下で詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。