次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

視覚的推論でAIが言語を超える

画像・Vision(画像認識、VLM、マルチモーダル、OCR)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「AIには、言葉で考えさせるより、視覚で考えさせた方がむしろ上手くいく場合がある」という発見が報告されています。

ケンブリッジ大、ロンドン大、Googleによる研究者らによる発表。

たとえば迷路を解くタスクでは、頭の中で道のりを思い浮かべるように、AIにも画像の連続を見せて「こう進めばいい」と考えさせるように仕向けました。
その結果、言葉で考えるよりも画像だけの方が上手くいきました。難しい問題ほどその差は大きく、40%以上も良くなったケースもありました。

人間が頭の中でイメージしながら考えるのに似たことを、AIにもさせられるという新しい発見です。

なお「見た目の情報で状況がわかるような問題」でやるのがポイントです。
迷路以外に幾つかのタスクが試され、能力が再現されました。

実験で使用されたAIはLarge Vision Model(大規模視覚モデル)という画像と動画のみで訓練されたモデルです。

📄 参照論文

Visual Planning: Let’s Think Only with Images

著者: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang 他

所属: University of Cambridge, University College London, Google

関連記事