「頭の中でイメージを描かないと解けない」ような課題を、LLMがテキストのみの推論で解けるようになっていると報告されています。
たとえば「Dを想像して90度回転させ、底にJを付ける」といった指示が与えられ、最終的な形を答えるという課題。これには視覚的イメージが不可欠とされてきました。
しかし意外にもGPT-5やo3といった最新モデルは、画像処理なしで取り組んで、人間平均(55%)を上回り、67%の正答率を記録しています。
純粋なテキスト処理だけで空間的な課題を解いているということです。
なお、同様の課題と答えが学習データにそもそも含まれているということがないように慎重にオリジナルの課題が用意されました。
この発見は、視覚イメージは本当に必要なのかという認知科学の根本問題に迫ります。
アファンタジアの人々(頭の中でイメージを視覚化することのできない状態)がなぜ同様の課題をこなせるのかという謎への手がかりにもなるかもしれません。
📄 参照論文
Artificial Phantasia: Evidence for Propositional Reasoning-Based Mental Imagery in Large Language Models
所属: Northeastern University