次回の更新記事:MCPサーバー1万件調査 約7件に1件は「説明書どおり…(公開予定日:2026年03月06日)

LLMエージェント性能評価、GPT-4が突出

エージェント(AIエージェント、ツール使用、自律的なタスク実行、MCP、computer use)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

推論能力と意思決定能力を軸にLLMを比較した結果、GPT-4がダントツの性能を示す

○ Xiao Liu et al. AgentBench: Evaluating LLMs as Agents

UCバークレーの研究者らは複数のLLMに対してエージェントとしての性能(システムが環境内で目標達成にどれだけ効果的かを測る重要な指標)を評価しました。

その結果、GPT-4がダントツの性能を示しました。さらに、APIで利用するタイプの商用LLMはオープンソースのLLMに比べて優れていました。
調査対象となったLLMは25種類です(画像2枚目)。Llama2も含まれています(ただし13bまで)。

評価軸は以下の通り。
■推論能力:タスクの正確な推論
■意思決定能力:最適な行動選択

LLMの開発者や研究者にとって重要な示唆を与える研究結果となりました。

なお今回の評価に使用された仕組みは新しく開発され「AgentBench」と名付けられ、ソースコードが公開されています。

📄 参照論文

論文:https://t.co/mkGosnUZ0x

関連記事