最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果

2024.05.21
深堀り解説

有望なマルチモーダルモデルが多く登場する一方で、モデルの能力を測定するためのベンチマークが不足しています。そこで今回研究者らは、情報検索能力と妨害要因の排除能力、そして現実世界の条件に近い長いコンテキスト処理性能を測定するための新しいベンチマークデータセットを作成し、実験しました。

参照論文情報

  • タイトル:MileBench: Benchmarking MLLMs in Long Context
  • 著者:Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang
  • 所属:The Chinese University of Hong Kong, Shenzhen Research Institute of Big Data

背景

マルチモーダルの大規模言語モデルが優れた性能を示しています。それに伴い、モデルの性能評価のためのベンチマークも登場してきました。その多くは、一般的な能力や特定のタスクにおける能力について測るものです。単一の画像と短いテキストで構成されるものが多く、現実世界の複雑さや多様性を捉えきれていないという問題点が指摘されています。

複数の画像を扱うタスクを評価するベンチマークも存在しますが、サンプルごとに提供される画像数が限られていたり、時系列のキャプション生成タスクに特化していたりと、まだ課題があります。

複数の画像を扱い、かつ長いコンテキストを扱う場合におけるハルシネーションの発生は危惧されるものであり、その点における評価が足りていません。

こうした背景を受けて、研究者らはMILEBENCHという新しいベンチマークを作成しました。マルチモーダルモデルの長いコンテキスト処理能力をテストするために特別に設計されたベンチマークです。「診断評価」と「現実的評価」の2つの異なる評価セットが用意されています。長いコンテキストでのタスク完了能力をテストするものです。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事