次回の更新記事:LLMは個人の金銭管理を適切にサポートできるのか?(公開予定日:2025年01月06日)

500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場

   

本記事では、マルチモーダルAIモデルの能力を包括的に評価する新しいベンチマーク「MEGA-BENCH」を紹介します。

従来の評価方法では捉えきれなかったLLMの多様な能力を、500以上の実世界のタスクを通じて測定することを可能にするベンチマークです。

【告知】AIDB HRの人材側登録者全員に対し、業界研究の手間を削減できるように「AI事業を行う企業リスト」を配布します。無料登録後すぐに閲覧とダウンロードが可能です。▼



参照論文情報

  • タイトル:MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks
  • 著者:Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
  • 研究機関:Simon Fraser University, University of Waterloo

背景

最近の言語モデルは徐々に画像や動画などのマルチモーダル情報を理解・解釈するまで発展してきました。

マルチモーダルモデルは登場当初、画像キャプション生成や視覚的質問応答などの標準的なタスクに特化していましたが、最近では適切なプロンプトを与えることで、ウェブナビゲーション、ゲーム、旅行計画作成など、より幅広い実用的なタスクに対応できるようになってきました。

しかし、網羅的な評価方法は不足しています。既存のベンチマークの多くは1つまたは少数の類似したタスクのみをカバーしており、モデルの全体的な能力を評価するには不十分です。

また、多くの既存の評価手法では多肢選択形式の質問に頼っており、モデルの生成能力を適切に評価できていません。さらに、タスクの網羅性が不十分だったり、評価コストが高すぎたりする問題もあります。

こうした背景から、より包括的な評価方法が必要と判断され、MEGA-BENCHの開発に至りました。MEGA-BENCHは500以上の実世界のタスクをカバーし、多様な出力形式に対応しながら、適度な評価コストで幅広いマルチモーダルモデルの能力を総合的に測定することを目指しているベンチマークです。

研究者らは本ベンチマークで最先端モデルの評価も実際に行いました。

以下で詳しく説明します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP