AIDB Daily Papers
LLMを戦略ゲームのライブエージェントとして評価:プロバイダー性能、ハイブリッド分解、および時間制限リスクプレイにおける運用上のギャップ
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、LLMを時間制限のある戦略ゲーム環境でライブエージェントとして評価し、プロバイダー間の性能差と運用上の課題を分析した。
- 静的なベンチマークでは捉えきれない、実際のシステムにおけるLLMの挙動を、リスクゲームという動的な環境で検証した点が重要である。
- GeminiがGPT-4などを凌駕する性能を示したが、計画と実行を分離すると性能差は縮小し、LLMの評価は単体ではなくワークフロー内でのコンポーネントとして行うべきであると結論づけた。
Abstract
Static benchmarks capture only part of how large language models behave in practice. Real systems place models inside repeated loops with time limits, formatting constraints, and failure modes. We study this setting in a timed multi-phase Risk environment with explicit victory targets and repeated planning and execution cycles. In a replicated 32-game cross-provider championship under frozen rules, gemini-3.1-pro-preview won 20 of 32 games against gpt-5.1, claude-opus-4-7, and kimi-k2.6, and the pooled winner distribution differs strongly from an equal-strength null (p approx 1.5 x 10^-5). We then separate planning from execution by standardizing execution on a cheaper Gemini Flash scaffold. Under this design, a pooled 32-game planner bakeoff is consistent with near-equality (p approx 0.821), which indicates that much of the earlier provider spread came from end-to-end system behavior rather than planning alone. To study mechanism, we analyze saved planning and execution traces from the provider championship. Gemini refers to the terminal objective far more often than the other models and increases that focus as victory approaches. Gemini also converts more turns into deep conquest chains, even though it is not the cleanest runtime. These results show that live-agent performance depends on objective tracking, execution conversion, cost, and runtime reliability, and they support evaluating LLMs as components in bounded workflows rather than as isolated benchmark respondents.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: