ポケカAI対決 Gemini 3.1 Proが最強、自己進化は不発

2026.05.29

ゲーム・強化学習（ゲームAI、強化学習、報酬設計）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

浙江大学などの研究チームが、ポケモンカードゲームでAIを評価する仕組み「PTCG-Bench」を作りました。ポケカは、相手の手札が見えない、ドローは運任せ、カードの文章と数値の両方を読み解く、何ターンも先を計画する、とAIが苦手な要素が一つのゲームに詰まっています。知能を測るのに丁度いい。

GeminiやClaude、GPTなど10種類のモデルを戦わせると、実力差ははっきり出ました。
今回比較された中で最も強かったのはGemini 3.1 Proで、頭一つ抜けていました。2番手はDeepSeek V4、そのあとにGemini 3 Flash、Claude Sonnet 4.6が続きます。
意外だったのはGPT-5.4で、中位どまりでした。

そして研究チームが本当に確かめたかったのは、AIが対戦を重ねるうちに自分で賢くなれるか、でした。
過去の反省を記憶する、有効な戦略をスキルとして貯めておく、といった5種類の「自己進化」の仕組みを試し、8回戦わせ続けたところ、どれも安定して強くはならず、成績は上下します。
経験ゼロの素のモデルを最後まで超えられた手法は、一つもなかったとのことです。

しかし盤面をどう見せるか、何を覚えさせるか、といった点を変えると成績が変わったそうです。

X（Twitter）で見る

ポケカAI対決 Gemini 3.1 Proが最強、自己進化は不発

こちらもどうぞ

🔒 機能実装やテスト生成まで実務で使えるLLMを見極める　2000件の実際のGitHub案件で検証

🔒 Vibe CodingとAgentic Codingの現在地【前編】～それぞれの特徴～

こちらもどうぞ

🔒 機能実装やテスト生成まで実務で使えるLLMを見極める 2000件の実際のGitHub案件で検証

🔒 Vibe CodingとAgentic Codingの現在地【前編】～それぞれの特徴～

🔒 機能実装やテスト生成まで実務で使えるLLMを見極める　2000件の実際のGitHub案件で検証