マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと

この記事では、MMMU-Proという新しいベンチマークについて説明します。LLMが文章だけでなく画像を含めて問題どれだけ理解できるかをより正確にそして厳しく測るベンチマークです。

実際に最新のLLMでMMMU-Proを試したところ、以前のベンチマーク（MMMU）より少ないスコアが出ました。MMMUの時点で「AGIを目指したベンチマーク」とされていたため、MMMU-Proの格段の難しさを示しています。

参照論文情報

タイトル：MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

著者：Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig

所属：MMMU Team

背景

LLMは画像と文章の組み合わせで難しい問題を解く力が大きく向上してきました。例えば、GPT-4oはMMMUというベンチマークで69.1%という高い正解率を出しました。MMMUとは、大学レベルのマルチモーダル問題で構成されたベンチマークで、どんどん優秀になるLLMが今後AGIに近づくことを見据えて難しい基準を設けたものです。

しかし、LLMは本当に深く理解して答えを出しているのでしょうか？それとも単に表面的な手がかりを使って正解を当てているだけなのでしょうか。

この疑問はとても重要です。なぜなら、もしLLMが本当の理解ではなく表面的な手がかりに頼っているだけなら、新しい状況では思わぬ間違いをする可能性があるからです。

そこで今回研究チームは、LLMの能力をより厳しくチェックする『MMMU-Pro』という新しいベンチマークを作りました。次の3つの特徴があります。