次回の更新記事:LLM同士だけで伝わる効率的なコミュニケーションをさ…(公開予定日:2024年12月16日)

GPT-4o、Gemini、Claude 3などにおける「長いプロンプトのマルチモーダルタスク」性能を測定した結果

   

有望なマルチモーダルモデルが多く登場する一方で、モデルの能力を測定するためのベンチマークが不足しています。そこで今回研究者らは、情報検索能力と妨害要因の排除能力、そして現実世界の条件に近い長いコンテキスト処理性能を測定するための新しいベンチマークデータセットを作成し、実験しました。

【告知】AIDB HRの人材側登録者全員に対し、業界研究の手間を削減できるように「AI事業を行う企業リスト」を配布します。無料登録後すぐに閲覧とダウンロードが可能です。▼



参照論文情報

  • タイトル:MileBench: Benchmarking MLLMs in Long Context
  • 著者:Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang
  • 所属:The Chinese University of Hong Kong, Shenzhen Research Institute of Big Data

背景

マルチモーダルの大規模言語モデルが優れた性能を示しています。それに伴い、モデルの性能評価のためのベンチマークも登場してきました。その多くは、一般的な能力や特定のタスクにおける能力について測るものです。単一の画像と短いテキストで構成されるものが多く、現実世界の複雑さや多様性を捉えきれていないという問題点が指摘されています。

複数の画像を扱うタスクを評価するベンチマークも存在しますが、サンプルごとに提供される画像数が限られていたり、時系列のキャプション生成タスクに特化していたりと、まだ課題があります。

複数の画像を扱い、かつ長いコンテキストを扱う場合におけるハルシネーションの発生は危惧されるものであり、その点における評価が足りていません。

こうした背景を受けて、研究者らはMILEBENCHという新しいベンチマークを作成しました。マルチモーダルモデルの長いコンテキスト処理能力をテストするために特別に設計されたベンチマークです。「診断評価」と「現実的評価」の2つの異なる評価セットが用意されています。長いコンテキストでのタスク完了能力をテストするものです。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP