ポケモンバトルは、タイプ相性、ステータス、技の威力と命中率など、複数の要素を同時に考慮する必要があるため、LLMの推論能力を試すのに適している。とのこと。
実際に競わせたところ、Grok 4は圧倒的に強く、ほぼ完璧な勝率で平均6ターン以内にバトルを終わらせたそうです。
一方でClaude やDeepSeekは慎重な戦略を取り、20ターン以上かかる長期戦になる傾向がありました。
ただ、いずれにしても人間が感じる「適度な難易度の相手」として機能できることが分かりました。
ついでに、新しいポケモンの技を作らせるという不思議な実験も行われており、GPT-5 Miniは最も創造的で独創的な技を生み出し、Claudeは数値バランスの取れた実用的な技を作るのが得意でした。
📄 参照論文
Large Language Models as Pokémon Battle Agents: Strategic Play and Content Generation
所属: Birla Institute of Technology and Science, Pilani, India