AIDB Daily Papers
AIエージェントはゲームエンジンで完全なゲームをエンドツーエンドで構築できるか?GameCraft-Benchによる評価
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 自然言語指示からプレイ可能なゲームをゲームエンジン内でエンドツーエンドで生成するタスクを定義し、評価フレームワークを提案した。
- この研究は、ゲーム生成におけるAIエージェントの能力を、エンジンへの統合性、成果物の完全性、インタラクティブな検証という3つの観点から評価する点で重要である。
- 最先端のAIエージェントでもゲーム生成は困難であり、多くのエージェントが40%未満のスコアとなり、完全なゲームの提供に課題があることが明らかとなった。
Abstract
Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: