GPT-4VなどのマルチモーダルLLMは優れた能力を示す一方で、意外な弱点があることが明らかになってきました。時として驚くほど単純な間違いを犯すのです。
その理由は、視覚的な能力の欠如によるものなのか、言語理解の問題なのか、それともその両方が絡み合っているのか?研究チームは、原因を突き止めるため、大規模な実験と分析を行いました。
重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。
参照論文情報
- タイトル:Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
- 著者:Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie
- 所属:New York University, FAIR(Meta), UC Berkeley
背景
画像認識能力を備えたLLMがいくつか発表され、マルチモーダルLLMと呼ばれています。GPT-4Vはその代表格です。
マルチモーダルLLMの画像認識能力は優れた能力を示す一方で、基本的な点で間違いを犯すことがあることが分かってきています。
ほとんどのマルチモーダルLLMは、事前に学習された視覚モデルと言語モデルを基に作られています。研究者たちは、事前学習された視覚モデルの限界が、それを使用するマルチモーダルLLMに引き継がれる可能性があるという仮説を立てました。つまり能力上の欠点は、言語モデルではなく視覚モデルにあるのではないかということです。
オープンソースのマルチモーダルLLMは、事前学習されたCLIPというモデルを視覚エンコーダーとして採用していることが多いです。そこで研究者たちは、CLIPが苦労する例を特定することから始めました。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。