視覚言語モデルで解明する人間の注視メカニズム

2026.05.25

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

カリフォルニア大学の研究者らが視覚言語モデルに
“人と同じく中心しか鮮明に見えない目”
を装着し、ただ『景色を正しく理解してね』とだけ命じたところ人間とそっくり同じ場所を追視するようになったとのこと。

このことから、私たちが何気なく追ってしまう”意味ありげな物”は、狭い中心視で世界を “理解”しようとした副産物として勝手に立ち上がってきたものかもしれない、と解釈されています。

なお、『特定の物を探せ』や『シーンを分類しろ』と別の目的を与えたり、目の周辺視を人より鋭くしても粗くすると人間らしい追視は消えるそうです。

「なぜ人は景色を眺めるとき、無意識に似たような箇所に視線が吸い寄せられるのか？」視覚科学の長年の謎に、AI研究がヒントをくれました。

こちらもどうぞ