次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

マルチモーダルLLMにおける欠点と原因を明らかにする調査研究の結果

2024.04.30
深堀り解説

GPT-4VなどのマルチモーダルLLMは優れた能力を示す一方で、意外な弱点があることが明らかになってきました。時として驚くほど単純な間違いを犯すのです。

その理由は、視覚的な能力の欠如によるものなのか、言語理解の問題なのか、それともその両方が絡み合っているのか?研究チームは、原因を突き止めるため、大規模な実験と分析を行いました。

参照論文情報

  • タイトル:Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
  • 著者:Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie
  • 所属:New York University, FAIR(Meta), UC Berkeley

背景

画像認識能力を備えたLLMがいくつか発表され、マルチモーダルLLMと呼ばれています。GPT-4Vはその代表格です。

マルチモーダルLLMの画像認識能力は優れた能力を示す一方で、基本的な点で間違いを犯すことがあることが分かってきています。

ほとんどのマルチモーダルLLMは、事前に学習された視覚モデルと言語モデルを基に作られています。研究者たちは、事前学習された視覚モデルの限界が、それを使用するマルチモーダルLLMに引き継がれる可能性があるという仮説を立てました。つまり能力上の欠点は、言語モデルではなく視覚モデルにあるのではないかということです。

オープンソースのマルチモーダルLLMは、事前学習されたCLIPというモデルを視覚エンコーダーとして採用していることが多いです。そこで研究者たちは、CLIPが苦労する例を特定することから始めました。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

記事検索

年/月/日
年/月/日

関連記事