浙江大学などの研究チームが、ポケモンカードゲームでAIを評価する仕組み「PTCG-Bench」を作りました。ポケカは、相手の手札が見えない、ドローは運任せ、カードの文章と数値の両方を読み解く、何ターンも先を計画する、とAIが苦手な要素が一つのゲームに詰まっています。知能を測るのに丁度いい。
GeminiやClaude、GPTなど10種類のモデルを戦わせると、実力差ははっきり出ました。
今回比較された中で最も強かったのはGemini 3.1 Proで、頭一つ抜けていました。2番手はDeepSeek V4、そのあとにGemini 3 Flash、Claude Sonnet 4.6が続きます。
意外だったのはGPT-5.4で、中位どまりでした。
そして研究チームが本当に確かめたかったのは、AIが対戦を重ねるうちに自分で賢くなれるか、でした。
過去の反省を記憶する、有効な戦略をスキルとして貯めておく、といった5種類の「自己進化」の仕組みを試し、8回戦わせ続けたところ、どれも安定して強くはならず、成績は上下します。
経験ゼロの素のモデルを最後まで超えられた手法は、一つもなかったとのことです。
しかし盤面をどう見せるか、何を覚えさせるか、といった点を変えると成績が変わったそうです。