Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る

Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発　5領域5能力で測る

本記事では、LLMの能力を総合的に評価する新ベンチマーク『MMAU』を開発したAppleの研究を紹介します。5つの領域と5つの能力を評価対象とし、3,000以上のプロンプトを含む20のタスクで構成されています。全てのタスクはオフラインで実施可能です。そして本ベンチマークを使用して18個のモデルを評価した結果から、各モデルの特性とLLMエージェントの現状が明らかになりました。

参照論文情報

タイトル：MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

著者：Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang

所属：Apple

背景

複雑な状況を理解し、論理的な推論を行い、適切な判断を下すLLMエージェントの活躍が期待されています。

しかし、LLMエージェントを評価する既存のベンチマークには課題があります。多くのベンチマークはアプリケーションに焦点を当てており、タスクの完了率のみを評価する傾向がありました。それだけでは、エージェントの根本的な能力を理解できるとは言えません。

何らかの問題を解く際に、例えば「理解力」「推論力」などのどの能力を伸ばすべきなのかが分からないといった状況です。

そこで今回、新しいベンチマークMMAU（Massive Multitask Agent Understanding）が開発されました。5つの重要な領域（ツールの使用、有向非巡回グラフを用いた質問応答、データサイエンスと機械学習のコーディング、コンテストレベルのプログラミング、数学）と、5つの本質的な能力（理解、推論、計画、問題解決、自己修正）を評価対象としています。

以下で詳しく紹介します。