AIが数学の難問を解き、コードを書く。そうした能力はもはや意外ではなくなりました。では、ポーカーで相手のブラフを見抜く、証言と証拠の矛盾を突いて犯人を追い詰める、仲間のふりをしたスパイを投票で追放する、といった場面ではどうでしょうか。
ここ数年、LLMの「戦略的知性」をゲームで測り、さらにゲームで鍛えようとする研究が相次いでいます。ポーカー、逆転裁判、Among Us、ボードゲーム、囚人のジレンマ。いずれも、数学やプログラミングの試験では測れないタイプの知性を要求するゲームです。今回、研究を横断して見えてきたのは、AIの戦略的知性がどこまで到達していて、どこに明確な壁があるのかという現在地図でした。

なぜ今「ゲーム」なのか
ゲームがAI研究のテストベッドとして使われてきた歴史は長く、チェス、囲碁、Atariゲームといった先例は広く知られています。
しかし最近は、LLMが持つ「非定型的な知性」を測る題材としても注目されています。不完全情報下での推論、社会的駆け引き、演繹的推論など、標準的なベンチマーク(数学、コード生成、知識問答)ではすくい取れない能力をどう測り、どう伸ばすかが問われています。
今回取り上げる5本の研究は2023年から2026年にかけて発表されたもので、方向性は大きく2つに分かれます。1つは、ゲームでAIの能力を「評価」する研究。もう1つは、ゲームでAIの能力を「訓練」する研究です。前者はAIの現在地を明らかにし、後者はAIの可能性を広げる試みといえます。