次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)

専門知識を要するマルチモーダル難問ベンチマークMMMU

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

専門家レベルのLLMを対象にして、これでもかというほど難しい問題を集めた新しいベンチマーク「MMMU」を開発したと報告されています。

GPT-4VやGemini Ultraでも6割未満の正解率であり、AGIに向けた課題が浮き彫りになっています。

“MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI”より

■MMMU開発の背景
1. 専門家レベルのLLMが登場し始めた
2. 既存のベンチマークはレベルが不十分である
3. 他分野のマルチモーダル問題が必要である

■どんなベンチマークなのか
1. 大学レベルの問題が11.5Kも含まれる
2. 多分野の問題をテキスト+画像で出題する

■実験結果
1. GPT-4VとGemini Ultraでも正解率は56%から59%
(Gemini Ultraの方が若干上回る)
2. 下記の複雑な問題でモデルが苦戦している
ビジネス/科学/医療/技術/工学

■問題例
– 誤ったインターバルを含む楽譜はどれか
– スクリーニング用のMRI画像から病因を答えよ
– この風刺画でアメリカはどう描かれているか

研究者らは、このようなベンチマークを使用してモデルの評価や開発がさらに進むと述べています。
なお、AIの進化に伴ってMMMUを含むベンチマークも進化させなければならないとしています。

📄 参照論文

■参照情報

関連記事