GPT-4.5、チューリングテストで人間超え

2025.04.01

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

OpenAI社が提供するLLM「GPT-4.5」がチューリングテストに合格したとの発表です。カリフォルニア大学の研究チームによる報告。

人間の審査員が人間とAIを見分けようとした結果、73%の割合で人間ではなくGPT-4.5が”人間”と判定される結果だったと報告されています。
平たく表現するなら、人間よりも人間らしく振舞えるようになったことを示唆しています。

LLMが明確に高いスコアでチューリングテストに合格するのは初の事例とのことです。

同社がより安価に提供している「GPT-4o」は21%だったことから、人間らしさという基準で開発が大きく前進したことが分かります。

なお、”人間らしさ”のスコアが最も上昇する際の指示は、若く内向的でインターネット文化に詳しい人物のように振舞わせるときだったそうです。
LLaMa-3.1-405Bも同様のペルソナ指示で56%のスコアを達成しています。

チューリングテストは、審査員が人間と機械の両方と会話し、どちらが人間かを見分けられるかを試す方法で”人間らしさ”の評価が行われる試験です。

Large Language Models Pass the Turing Test

著者: Cameron R. Jones, Benjamin K. Bergen

こちらもどうぞ