最先端AIが「迷路」や「間違い探し」では幼児に完敗するという少し微笑ましいともいえる実験報告。
GPT-5.2やGemini3、Claude-4.5-Opusといったそうそうたる顔ぶれが、幼児向けワークブックのような視覚パズルに挑んだところ、最高性能でも6歳児に届かず、多くは3歳児にも及ばないという結果に。
原因は「言語化ボトルネック」にあると分析されています。現在のモデルは視覚情報をいったん言葉に変換してから考えるため、言葉にしにくい微妙な形の違いや、絡み合った線の追跡が苦手。
人間の子どもは言葉を覚える前から「見る力」を発達させる一方、AIは逆に言葉が先で目が後という、人間からするとちょっと不思議な育ち方をしているためです。
裏を返せば、これはAIの大きな伸びしろを示しているかもしれません。
人間が幼少期に自然と身につける視覚能力をAIが獲得できれば、その先には本当の意味での「見て考える」知性が待っているかもしれないと期待されています。
📄 参照論文
BabyVision: Visual Reasoning Beyond Language
所属: UniPat AI, xbench, Alibaba Group