この度、ポケモンが本格的なAIベンチマークとして整備されました。バトルとRTA(スピードラン)の二軸で測れるのは「不完全情報下で相手と戦略的に渡り合う力」能力とのこと。
プリンストン大やGoogle DeepMindなどの研究チームが主導して発表。
最近、最先端AIでポケモンにチャレンジすることがAI研究の世界で流行になっており、極めて真面目に取り組まれています。
そんな中、今回作られた「PokéAgent Challenge」は共通のインフラと評価基準、そして2,000万件を超える対戦データを整え、すでにNeurIPS 2025(AI分野のトップ国際会議)の公式コンペティションとして100チーム以上が参加する大規模な検証の場で使用されました。
コンペの結果では、RTA(今回は最初のジムリーダー撃破までの速さ勝負)優勝チームは”LLMが「大局的な判断」を担い、強化学習で「実行の最適化」を行う”という戦略で圧勝しました。
なお、大変おもしろいことに、ポケモンバトルの成績は定番のベンチマーク成績とあまり相関しないようです。コーディングや数学で高得点のモデルがバトルで崩壊し、その逆も起きました。
ポケモンは、今の評価体系ではまったく測れない能力を測定しているのです。