GPT-4、限定条件下でチューリングテストに成功

2023.11.01

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4はチューリングテスト（人間かAIかを見破らせないゲーム）に一定の確率で成功することが実験で明らかになりました。
つまり、特定の状況では人間と同等の振る舞いをしている可能性があるということです。

カリフォルニア大学の研究者らによる発表です。

@ Cameron Jones and Benjamin Bergen, “Does GPT-4 Pass the Turing Test?”

「現代における最先端の人工知能」はチューリングテスト（Turing Test）に成功するのか、は興味深いテーマです。
同時に、チューリングテストは1950年に発明されており、現代でも有用なのかを検証する手掛かりも必要です。

そこで研究者らはシンプルにGPT-4をチューリングテストで評価してみました。

■そもそもチューリングテストとは
人工知能が人間と同等の知能を持っているを調べるためのテストです。
基本的には、質問者が「証人はコンピュータか人間か」を判断できなければチューリングテスト成功です。

■実験デザイン
① 2人プレイヤーのチューリングテストを実施
③ 証人としてGPT-3.5、GPT-4、ELIZA（、そして人間）を採用
④ 証人がAIか人間かを判断するインターフェースを提供
⑤ ゲームの制限時間は5分間
⑥ 質問者はゲームの終了時に証人がAIか人間かを判断し、その自信レベルを報告

■実験結果
それぞれのモデルは以下の成功率を達成しました。
① GPT-3.5：〜14%
② GPT-4：〜41%（最高）
③ ELIZA：〜27%
※パーセンテージに幅があるのは、使用するプロンプト戦略によって成功率が変化するためです。

■主な結論
① GPT-4は特定の条件下で人間だと思われる可能性がある
② ただし、成功率は50%に達していない
（人間と完全に区別がつかないわけではない）
③ 人間の判断は「言語的スタイル」と「社会感情的特性」に大きく依存している
④ チューリングテストは知能だけを見るものではない
（自然なコミュニケーションや欺瞞に対する評価手段としても有用である）

■注意点
実験参加者はSNSを通じて募集された為、一般を代表するグループではない可能性があります

📄 参照論文

論文情報と関連研究

📎 論文を読む（arxiv.org）

X（Twitter）で見る

GPT-4、限定条件下でチューリングテストに成功

📄 参照論文

こちらもどうぞ

🔒 LLMから「LLMエージェント」へ　ソフトウェアエンジニアリングにおける今後の展開

🔒 複数LLMに議論させ、「回答に自信がないときは発言を控えさせ」て応答品質を向上する方法

📄 参照論文

こちらもどうぞ

🔒 LLMから「LLMエージェント」へ ソフトウェアエンジニアリングにおける今後の展開

🔒 複数LLMに議論させ、「回答に自信がないときは発言を控えさせ」て応答品質を向上する方法

🔒 LLMから「LLMエージェント」へ　ソフトウェアエンジニアリングにおける今後の展開