ChatGPTはチューリングテスト(人間模倣ゲーム)に一定の確率で成功する。ただし解釈には注意を

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

GPT-4は、OpenAIによって開発された最新の大規模言語モデルです。ChatGPTで使用できるモデルの一つであり、APIで利用できる開発ツールの一種です。

今回GPT-4は、チューリングテスト(人間と区別がつかないレベルで振る舞うことができるかどうかの実験)で一定の成績を達成しました。以前のモデルであるGPT-3.5や、初期のAIであるELIZAの成績を上回るものであり、人間には及ばないものの、AIの進化を評価する上での重要なデータとなります。

本研究はカリフォルニア大学サンディエゴ校の研究者たちによって行われ、結果はAIの発展だけでなく、社会におけるAIの役割と影響についての理解を深めるためにも有用です。

ただし、本結果は特定の条件下でのみということを忘れてはなりません。全ての状況において人間と同じように振る舞えるというわけではない点を踏まえた上で、本記事ではGPT-4とチューリングテストに関する研究の概要を紹介していきます。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

・タイトル:Does GPT-4 Pass the Turing Test?
・著者:Cameron Jones and Benjamin Bergen
・所属:UC San Diego
・URL:https://doi.org/10.48550/arXiv.2310.20216

本研究の関連記事:LLMは世界モデルを持ち「物事がどのように位置づけられ、時間がどのように進行するか」を理解する可能性

背景

チューリングテストの歴史と現代的意義

チューリングテストは、1950年にアラン・チューリングによって考案されました。本テストは、「人間と区別がつかないほど自然なコミュニケーションを行う」能力を持つ機械の存在を評価するための方法として提案されました。

チューリングは、開かれた質問に応答するゲームによって、広範な知能をテストできると考えました。例えばロマンチックな愛から数学に至るまであらゆるトピックについての質問に対して機械が答えられるかどうかが重要ということです。

チューリングテストはその発表以来、知名度を得るとともに、知能の感度に関して多くの批判も受けてきました。一部の批評家は、このテストが知能を測定するための完全な指標ではないと主張しています。

現代におけるチューリングテストの役割

AIの研究がますます盛んな現代においても、チューリングテストは自然なコミュニケーションと欺瞞(だます能力)の評価手段として有用視されています。

AIモデルが人間のように振る舞う能力は、広範な社会的影響を持つ可能性があります。だからこそ、基準の有効性を今一度分析することも重要です。

なおチューリングテストは、機械の評価だけでなく、人間を被験者として、文化的、倫理的、心理的バックグラウンドを間接的に探るものでもあります。尋問者が質問を考案し、洗練させる過程で、彼らは人間であることの構成要素や、それらのうち模倣するのが最も難しいのはどれかを暗黙のうちに明らかにします。

本研究の関連記事:LLMエージェントは同調圧力に弱く考えに固執する傾向があるため、ディベートでバイアスを和らげるのが重要との報告。導入ツールも公開

実験デザイン

研究者らは、チューリングテストの有効性を確かめるため、また現代における最先端AIがどの程度人間に近いのかを知るために、GPT-4をチューリングテストで評価する実験を行いました。

チューリングテスト実験のためのチャットインターフェース





チューリングテストの実装形式

本研究では、チューリングテストの2人プレイヤー形式を採用しました。質問者(インターロゲーター)が一人の証人に対して質問を行い、その証人が人間かAIかを判断する形式です。複数の人間参加者を各ゲームにオンラインで必要とするオリジナルの3人プレイヤー形式とは異なりますが、ゲームの標準的な解釈として採用されています。

チューリングテストの文脈でのゲーム会話からの抜粋

AI証人の選定

研究チームは、OpenAI APIを使用し、応答する側のAIとして25種類のLLM証人を作成しました。各LLM証人は、モデル(GPT-3.5またはGPT-4)、温度設定(0.2、0.5、または1.0)、および複数のプロンプトフレームワークで構成されていました。プロンプトには、インタラクションの文脈と、エージェントがどのように応答すべきかの指示が記述されていました。

インターフェースとゲームの流れ

参加者は、質問者または証人としてランダムに割り当てられ、各ゲームは5分間続きます。質問者は、制限時間内に証人がAIか人間かを判断し、その自信のレベルを報告する必要があります。

ELIZAの参加

ELIZAは、1966年にWeizenbaumによって開発されたルールベースのチャットボットで、本研究では比較のためのベースラインとして使用されました。ELIZAは、パターンマッチングと置換を組み合わせて、ユーザーの入力から抽出したテキストを織り交ぜたテンプレート応答を生成します。その単純さにもかかわらず、多くのユーザーがプログラムに人間の感情を感じたと報告されています。

実験の倫理的配慮

実験デザインには、参加者が他の参加者に対して攻撃的な発言をするリスクがありました。このリスクを軽減するために、攻撃的なメッセージの送信を防ぐコンテンツフィルターを使用しました。また、参加者が攻撃を報告できるシステムを作成しました。

本研究の関連記事:GPT-4をセラピストとして実行し、「認知の歪み」を診断させるためのフレームワーク『Diagnosis of Thought (DoT)』と実行プロンプト

実験結果

チューリングテストにおける様々な証人(人間、AI、GPTの異なるバージョン、ELIZA)の全体的な成功率(SR)

成功率の概要

この研究では、GPT-4、GPT-3.5、およびELIZAのチューリングテストにおける成功率が詳細に分析されました。以下は、それぞれのモデルが達成した成功率の概要です:

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP