「もしこの行動をしたら世界はどうなるか」を想像してシミュレーションする能力を持つモデルを世界モデルと呼びます。
今回MBZUAIの研究者らは、PANという新しい世界モデルを開発したと報告しています。
LLMの仕組みを世界モデルの中核に組み込んだことで、人間の言葉で
「次はこうして」と指示を出しながら、長時間にわたって一貫性のある世界のシミュレーションができるようになったそうです。
技術的には、まず言語モデルを使って因果関係を予測し、その筋書きをもとに、動画生成モデルが実際の映像の細かいディテールを描き足していく流れになっています。
実験では、AIエージェントが計画を立てる際の「思考実験」として使えることが確認されました。
実際、このモデルをAIエージェントと組み合わせると、タスクの成功率が約25%も向上したと言います。
世界モデルは主にロボットや自動車、ゲームなどの分野で開発が進んでおり、今後こうした研究が現実に応用される場面も遠くないかもしれません。
📄 参照論文
PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
所属: Mohamed bin Zayed University of Artificial Intelligence