次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満

2023.12.30
深堀り解説

専門家レベルのLLMを対象にして、これでもかというほど難しい問題を集めた新しいベンチマーク「MMMU」を開発したことがウォータールー大学などの研究者らによって報告されています。

GPT-4VやGemini Ultraでも6割未満の正解率であり、AGIに向けた課題が浮き彫りになっているのとのことです。

本記事では報告内容を見ていきます。

参照論文情報

MMMU開発の背景

最近のLLMの進化は、AGI(人工一般知能)の実現に向かって進んでいるという見方があります。システムは高度な知能を持ち、多くの業界での人間の労働を代替する可能性を持つため、経済的な変動や雇用への影響も大きいと考えられています。

LLMのレベルを測るために開発されたベンチマークの中には、大学レベルの試験を参考にしたものもあり、テキストベースの問題だけでなく、マルチモーダル問題を解決する能力も評価されるようになってきています。
しかし、既存のベンチマークの多くはまだ標準的なレベルの知識にフォーカスしており、専門的かつ高度なレベルはあまりカバーしていないようです。

研究者らはこの課題を解決するために、専門的な内容を多く含む新しいベンチマークMMMUを開発しました。

本記事の関連研究

MMMUベンチマークの特徴

MMMUベンチマークは以下のような特徴を持っています。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

記事検索

年/月/日
年/月/日

関連記事