この記事では、MMMU-Proという新しいベンチマークについて説明します。LLMが文章だけでなく画像を含めて問題どれだけ理解できるかをより正確にそして厳しく測るベンチマークです。
実際に最新のLLMでMMMU-Proを試したところ、以前のベンチマーク(MMMU)より少ないスコアが出ました。MMMUの時点で「AGIを目指したベンチマーク」とされていたため、MMMU-Proの格段の難しさを示しています。
参照論文情報
- タイトル:MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
- 著者:Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
- 所属:MMMU Team
背景
LLMは画像と文章の組み合わせで難しい問題を解く力が大きく向上してきました。例えば、GPT-4oはMMMUというベンチマークで69.1%という高い正解率を出しました。MMMUとは、大学レベルのマルチモーダル問題で構成されたベンチマークで、どんどん優秀になるLLMが今後AGIに近づくことを見据えて難しい基準を設けたものです。
しかし、LLMは本当に深く理解して答えを出しているのでしょうか?それとも単に表面的な手がかりを使って正解を当てているだけなのでしょうか。
この疑問はとても重要です。なぜなら、もしLLMが本当の理解ではなく表面的な手がかりに頼っているだけなら、新しい状況では思わぬ間違いをする可能性があるからです。
そこで今回研究チームは、LLMの能力をより厳しくチェックする『MMMU-Pro』という新しいベンチマークを作りました。次の3つの特徴があります。
- 文章だけで答えられる問題は使わない
- 選択肢の数を増やして、当てずっぽうで正解する可能性を減らす
- 質問が画像の中に書かれていて、それを読み取る必要がある問題も含める
この中で、特に3つ目の特徴が大切とのことです。人間が自然に行っている「見ること」と「読むこと」を同時に行う能力をLLMがどれだけ持っているかを調べる必要があるためです。
実験では、最先端のLLMがこのような難しいベンチマークでどれほどの性能を見せるのかという点と、プロンプトのテクニックでどれほどスコアを伸ばせるのかという点が確かめられました。
以下で詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。