Metaの研究者らは、テキストで入力するだけで実際にゲームで歩き回れる3D空間を自動生成するシステム「WorldGen」を開発したと報告しています。
UnityやUnreal Engineといった実際のゲーム開発ツールでそのまま使える、きちんとした3Dシーンが出てくるとのことです。
以下の流れで生成されます。
1. LLMがユーザーのテキストからシーンの構造や雰囲気を解釈し、成用のパラメータを決める
2. そのパラメータに基づいて、大まかな3Dレイアウトを作る
3. そのレイアウトから「どこを歩けるか」を表す
4. シーン全体の画像を生成する
5. シーン全体を3Dとして再構成し、オブジェクトごとに分解
ただし現在は生成できるシーンは約50メートル四方の範囲に限られています。
なお、こうした技術はいくつかのチームが競争して開発している状態ですが、今回は「生成方法」における工夫がポイントだとされています。
また、大規模な学習用データがないので、自前の合成シーンで各モデルをファインチューニングしているそうです。
📄 参照論文
WorldGen: From Text to Traversable and Interactive 3D Worlds
所属: Meta Reality Labs