ものを見るときのAIは「対象の意味をくみ取ろうとするとき」、人間の脳の仕組みに意外なほど近づくとのこと。
視覚そのものというよりも、「なぜ見るのか」という目的や問いが、脳とAIの似た働きにつながる手がかりになると考えられます。
より詳しくは、「この画像について説明して」といった指示に反応したときのAIの内部の動きが、人間が画像を見て内容を理解しようとするときの脳の動きとかなり似ていることが分かりました。
後部側頭皮質という、視覚をつかさどる脳領域と似ていたようです。
単に画像を見せるだけでは、それほどの一致は得られないとのこと。
この発見を報じた論文は、AI関連のトップ学会の一つICLRに採択されています。
📄 参照論文
Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)
所属: Technische Universität Berlin, IIIT Hyderabad, University of Maryland