チャットアプリで誰かと5分間やりとりしているとします。相手はスラングを使い、ちょっとした冗談を返し、誕生日の思い出を語ってくれます。もう一人の相手は丁寧で、質問には正確に答えるものの、どこか優等生的です。「どちらが人間か?」と聞かれたら、あなたはおそらく前者を選ぶでしょう。実際の実験で、大多数の参加者がそう判断しました。ところが前者はAIで、後者こそが本物の人間でした。

75年前に提案されたチューリングテストに、LLMが初めて合格したという研究結果が2025年に報告されました。ただし、この話には続きがあります。テストの設計を少し変えるだけで結果が大きく揺れること、そして「一般的な人間らしさ」と「特定の誰からしさ」の間には、まだ大きな溝があることも明らかになっています。
本記事では、2025年に大きな話題となったチューリングテスト実験の中身を掘り下げ、その後に出た反論研究や拡張研究を重ね合わせながら、「AIが人間を代替できる範囲」の現在地を整理します。テストに通ったことそのものより、通った条件と通らなかった条件の差分にこそ、実務上の手がかりがあります。