研究者らによると、動画生成モデル『Sora 2』は「描きながら考える」タスクではGPT-5やClaude、Geminiといった最先端モデルよりも優れている場合があるそうです。
例えば幾何学的なパズルで、実際に線を引いたり図形を描いたりしながら問題を解きました。
また別の光の反射経路を求める問題では、動画の中で光の道筋を正確に描き出して正解を導きました。
しかし注意したい点として、最終的な答えは正しくても、途中の計算や説明が判読不能だったり論理的におかしかったりするケースが少なくないとのこと。
研究チームは、この「動画で考える」パラダイムが、テキストと画像という別々のモダリティを統合する新しい推論の枠組みになる可能性があると考えています。
ただし現時点では、その能力がどこまで本物の推論なのか、まだ分かりません。
📄 参照論文
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
所属: Fudan University, Shanghai Innovation Institute, Harbin Institute of Technology