推論能力と意思決定能力を軸にLLMを比較した結果、GPT-4がダントツの性能を示す
○ Xiao Liu et al. AgentBench: Evaluating LLMs as Agents
UCバークレーの研究者らは複数のLLMに対してエージェントとしての性能(システムが環境内で目標達成にどれだけ効果的かを測る重要な指標)を評価しました。
その結果、GPT-4がダントツの性能を示しました。さらに、APIで利用するタイプの商用LLMはオープンソースのLLMに比べて優れていました。
調査対象となったLLMは25種類です(画像2枚目)。Llama2も含まれています(ただし13bまで)。
評価軸は以下の通り。
■推論能力:タスクの正確な推論
■意思決定能力:最適な行動選択
LLMの開発者や研究者にとって重要な示唆を与える研究結果となりました。
なお今回の評価に使用された仕組みは新しく開発され「AgentBench」と名付けられ、ソースコードが公開されています。