スタンフォード大学の研究チームが、新しい世界モデルを発表しています。
AIが自分で動画を観察して「もしこの物体がこう動いたらどうなるか」という仮想的な状況を想像することで、物体の動きや奥行き、物体の境界線などを自動的に理解するシステムを開発したそうです。
映像の一部を意図的に変更した仮想シナリオを作り出し、それを元の映像と比較して推論することで、物理法則や物体の関係性を学習する仕組み。
また、一度そうした理解(動きや奥行きなど)を獲得すると、それを使ってさらに高度な理解を積み重ねていくそうです。
結果、単一のモデルで動画予測、物体操作、3D理解など様々なタスクをこなせるようになり、各専用システムに匹敵する性能を示しています。
📄 参照論文
World Modeling with Probabilistic Structure Integration
所属: Stanford NeuroAI Lab