専門家レベルのLLMを対象にして、これでもかというほど難しい問題を集めた新しいベンチマーク「MMMU」を開発したと報告されています。
GPT-4VやGemini Ultraでも6割未満の正解率であり、AGIに向けた課題が浮き彫りになっています。
“MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI”より
■MMMU開発の背景
1. 専門家レベルのLLMが登場し始めた
2. 既存のベンチマークはレベルが不十分である
3. 他分野のマルチモーダル問題が必要である
■どんなベンチマークなのか
1. 大学レベルの問題が11.5Kも含まれる
2. 多分野の問題をテキスト+画像で出題する
■実験結果
1. GPT-4VとGemini Ultraでも正解率は56%から59%
(Gemini Ultraの方が若干上回る)
2. 下記の複雑な問題でモデルが苦戦している
ビジネス/科学/医療/技術/工学
■問題例
– 誤ったインターバルを含む楽譜はどれか
– スクリーニング用のMRI画像から病因を答えよ
– この風刺画でアメリカはどう描かれているか
研究者らは、このようなベンチマークを使用してモデルの評価や開発がさらに進むと述べています。
なお、AIの進化に伴ってMMMUを含むベンチマークも進化させなければならないとしています。