視覚AI、目的意識で脳と酷似

2025.05.272026.01.31

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ものを見るときのAIは「対象の意味をくみ取ろうとするとき」、人間の脳の仕組みに意外なほど近づくとのこと。

視覚そのものというよりも、「なぜ見るのか」という目的や問いが、脳とAIの似た働きにつながる手がかりになると考えられます。

より詳しくは、「この画像について説明して」といった指示に反応したときのAIの内部の動きが、人間が画像を見て内容を理解しようとするときの脳の動きとかなり似ていることが分かりました。
後部側頭皮質という、視覚をつかさどる脳領域と似ていたようです。

単に画像を見せるだけでは、それほどの一致は得られないとのこと。

この発見を報じた論文は、AI関連のトップ学会の一つICLRに採択されています。

Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)

著者: Subba Reddy Oota, Akshett Jindal, Ishani Mondal, Khushbu Pahwa, Satya Sai Srinath Namburi 他

所属: Technische Universität Berlin, IIIT Hyderabad, University of Maryland

関連記事