LLM、テキストだけで視覚的推論が可能に

2025.10.03

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「頭の中でイメージを描かないと解けない」ような課題を、LLMがテキストのみの推論で解けるようになっていると報告されています。

たとえば「Dを想像して90度回転させ、底にJを付ける」といった指示が与えられ、最終的な形を答えるという課題。これには視覚的イメージが不可欠とされてきました。

しかし意外にもGPT-5やo3といった最新モデルは、画像処理なしで取り組んで、人間平均（55%）を上回り、67%の正答率を記録しています。
純粋なテキスト処理だけで空間的な課題を解いているということです。

なお、同様の課題と答えが学習データにそもそも含まれているということがないように慎重にオリジナルの課題が用意されました。

この発見は、視覚イメージは本当に必要なのかという認知科学の根本問題に迫ります。
アファンタジアの人々（頭の中でイメージを視覚化することのできない状態）がなぜ同様の課題をこなせるのかという謎への手がかりにもなるかもしれません。

Artificial Phantasia: Evidence for Propositional Reasoning-Based Mental Imagery in Large Language Models

著者: Morgan McCarty, Jorge Morales

所属: Northeastern University

関連記事