Sora 2、視覚的推論でGPT-5超えか

2025.11.072026.01.31

動画（動画生成、動画理解、映像AI）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

研究者らによると、動画生成モデル『Sora 2』は「描きながら考える」タスクではGPT-5やClaude、Geminiといった最先端モデルよりも優れている場合があるそうです。

例えば幾何学的なパズルで、実際に線を引いたり図形を描いたりしながら問題を解きました。
また別の光の反射経路を求める問題では、動画の中で光の道筋を正確に描き出して正解を導きました。

しかし注意したい点として、最終的な答えは正しくても、途中の計算や説明が判読不能だったり論理的におかしかったりするケースが少なくないとのこと。

研究チームは、この「動画で考える」パラダイムが、テキストと画像という別々のモダリティを統合する新しい推論の枠組みになる可能性があると考えています。

ただし現時点では、その能力がどこまで本物の推論なのか、まだ分かりません。

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

著者: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang 他

所属: Fudan University, Shanghai Innovation Institute, Harbin Institute of Technology

こちらもどうぞ