視覚を持つLLMが画像に基づいて質問に正解したとしても、「画像の正しい部分を見ている」かどうかは分からないので注意とのこと。
なぜかというと、本当は見えていないのに言語能力を駆使して「正解だと思われること」を答えているケースがあるのだといいます。
このような現象をショートカット学習と言うそうです。
今回研究チームは、「モデルがどこを見ているのか」を可視化する方法を開発し、その結果このような問題が発覚したとのことです。
逆に画像内の正しい部分に注目したとしても最終的な答えを誤るケースもあります。
視覚に基づく回答能力は必ずしもモデルサイズに比例して改善するわけではなく、またモデルの構造によって「見るときの注意の仕方」は違うようです。
そのため、使用するモデルごとの特性の理解が推奨されることを示唆。
なお、視覚を持つLLMを大規模視覚言語モデルと呼んだり、より一般的な言い方でマルチモーダルLLMと呼んだりします。