GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果

有望なマルチモーダルモデルが多く登場する一方で、モデルの能力を測定するためのベンチマークが不足しています。そこで今回研究者らは、情報検索能力と妨害要因の排除能力、そして現実世界の条件に近い長いコンテキスト処理性能を測定するための新しいベンチマークデータセットを作成し、実験しました。

参照論文情報

タイトル：MileBench: Benchmarking MLLMs in Long Context

著者：Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang

所属：The Chinese University of Hong Kong, Shenzhen Research Institute of Big Data

背景

マルチモーダルの大規模言語モデルが優れた性能を示しています。それに伴い、モデルの性能評価のためのベンチマークも登場してきました。その多くは、一般的な能力や特定のタスクにおける能力について測るものです。単一の画像と短いテキストで構成されるものが多く、現実世界の複雑さや多様性を捉えきれていないという問題点が指摘されています。

複数の画像を扱うタスクを評価するベンチマークも存在しますが、サンプルごとに提供される画像数が限られていたり、時系列のキャプション生成タスクに特化していたりと、まだ課題があります。

複数の画像を扱い、かつ長いコンテキストを扱う場合におけるハルシネーションの発生は危惧されるものであり、その点における評価が足りていません。

こうした背景を受けて、研究者らはMILEBENCHという新しいベンチマークを作成しました。マルチモーダルモデルの長いコンテキスト処理能力をテストするために特別に設計されたベンチマークです。「診断評価」と「現実的評価」の2つの異なる評価セットが用意されています。長いコンテキストでのタスク完了能力をテストするものです。