今のAIが意外にもかなり苦手なこと、それは「人間なら初見でもそこそこ遊べる簡単ゲーム」。
GPT-5.2やClaude Opus 4.5といったモデルに、App StoreやSteamの人気ゲームを100種類プレイさせたところ、最高成績でも「人間の中央値スコアのわずか8.5%」だったとのこと。
人間は2分で、AIは20分以上かけてこの結果です。
なお、LLMが最も苦手とするゲームは3つの系統に分かれます。
ゲームのルールが明示されず自分で試行錯誤して法則を見つける「ワールドモデル学習」
過去の画面情報を記憶して後の判断に活かす「記憶」
そして何手も先をシミュレーションする「計画」
これらの能力を組み合わせる必要があるゲームでは目も当てられないほど成績が急落するそうです。
ちなみに「AIが反応が遅いから負ける」わけではなく、例えばじっくり考えられるパズルゲームでも成績はほぼ変わりません。今のLLMたちは認知の構造そのものが、人間が気楽に楽しんでいるゲームに向いていないようです。