AIDB Daily Papers
Nemobot Games:LLMとの対話的学習で戦略的AIゲームエージェントを構築
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMを活用し、AIゲームプログラミングの新たなパラダイムを提案し、ゲームエージェントの作成・カスタマイズ・展開を可能にする環境を開発した。
- 本研究は、LLMが辞書ベース、解法可能、ヒューリスティック、学習ベースの4種類のゲームにおいて、状態圧縮、最適戦略計算、ミニマックスとクラウドソーシングの統合、強化学習による戦略洗練などの能力を示す。
- Nemobotは、ツール拡張生成とファインチューニングを可能にし、AIエージェントが人間とAIの創造性を統合して自己プログラミングする能力を持つことを示し、自己プログラミングAIの実現に向けた一歩となった。
Abstract
This paper introduces a new paradigm for AI game programming, leveraging large language models (LLMs) to extend and operationalize Claude Shannon's taxonomy of game-playing machines. Central to this paradigm is Nemobot, an interactive agentic engineering environment that enables users to create, customize, and deploy LLM-powered game agents while actively engaging with AI-driven strategies. The LLM-based chatbot, integrated within Nemobot, demonstrates its capabilities across four distinct classes of games. For dictionary-based games, it compresses state-action mappings into efficient, generalized models for rapid adaptability. In rigorously solvable games, it employs mathematical reasoning to compute optimal strategies and generates human-readable explanations for its decisions. For heuristic-based games, it synthesizes strategies by combining insights from classical minimax algorithms (see, e.g., shannon1950chess) with crowd-sourced data. Finally, in learning-based games, it utilizes reinforcement learning with human feedback and self-critique to iteratively refine strategies through trial-and-error and imitation learning. Nemobot amplifies this framework by offering a programmable environment where users can experiment with tool-augmented generation and fine-tuning of strategic game agents. From strategic games to role-playing games, Nemobot demonstrates how AI agents can achieve a form of self-programming by integrating crowdsourced learning and human creativity to iteratively refine their own logic. This represents a step toward the long-term goal of self-programming AI.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: