本記事では、LLMの能力を総合的に評価する新ベンチマーク『MMAU』を開発したAppleの研究を紹介します。5つの領域と5つの能力を評価対象とし、3,000以上のプロンプトを含む20のタスクで構成されています。全てのタスクはオフラインで実施可能です。そして本ベンチマークを使用して18個のモデルを評価した結果から、各モデルの特性とLLMエージェントの現状が明らかになりました。
参照論文情報
- タイトル:MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
- 著者:Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
- 所属:Apple
背景
複雑な状況を理解し、論理的な推論を行い、適切な判断を下すLLMエージェントの活躍が期待されています。
しかし、LLMエージェントを評価する既存のベンチマークには課題があります。多くのベンチマークはアプリケーションに焦点を当てており、タスクの完了率のみを評価する傾向がありました。それだけでは、エージェントの根本的な能力を理解できるとは言えません。
何らかの問題を解く際に、例えば「理解力」「推論力」などのどの能力を伸ばすべきなのかが分からないといった状況です。
そこで今回、新しいベンチマークMMAU(Massive Multitask Agent Understanding)が開発されました。5つの重要な領域(ツールの使用、有向非巡回グラフを用いた質問応答、データサイエンスと機械学習のコーディング、コンテストレベルのプログラミング、数学)と、5つの本質的な能力(理解、推論、計画、問題解決、自己修正)を評価対象としています。
以下で詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。