マルチモーダルLLMにおける欠点と原因を明らかにする調査研究の結果

GPT-4VなどのマルチモーダルLLMは優れた能力を示す一方で、意外な弱点があることが明らかになってきました。時として驚くほど単純な間違いを犯すのです。

その理由は、視覚的な能力の欠如によるものなのか、言語理解の問題なのか、それともその両方が絡み合っているのか？研究チームは、原因を突き止めるため、大規模な実験と分析を行いました。

参照論文情報

タイトル：Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

著者：Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie

所属：New York University, FAIR（Meta）, UC Berkeley

背景

画像認識能力を備えたLLMがいくつか発表され、マルチモーダルLLMと呼ばれています。GPT-4Vはその代表格です。

マルチモーダルLLMの画像認識能力は優れた能力を示す一方で、基本的な点で間違いを犯すことがあることが分かってきています。

ほとんどのマルチモーダルLLMは、事前に学習された視覚モデルと言語モデルを基に作られています。研究者たちは、事前学習された視覚モデルの限界が、それを使用するマルチモーダルLLMに引き継がれる可能性があるという仮説を立てました。つまり能力上の欠点は、言語モデルではなく視覚モデルにあるのではないかということです。

オープンソースのマルチモーダルLLMは、事前学習されたCLIPというモデルを視覚エンコーダーとして採用していることが多いです。そこで研究者たちは、CLIPが苦労する例を特定することから始めました。