ポーカーなど不完全情報ゲームを「心の理論」で上手にプレイするGPT-4ベースの『Suspicion（疑心）-Agent』松尾研など開発

GPT-4などのLLMをはじめとするAIは、多くのタスクで人間に匹敵する、あるいはそれ以上の性能を発揮しています。しかし、ポーカーなどの不完全情報ゲームにおいては、AIが高い性能を発揮することは容易ではありませんでした。

この課題に対処するため、研究者らはGPT-4を基盤とした新しいエージェント『Suspicion-Agent（Suspicion：疑心）』を開発しました。このエージェントは、不完全情報ゲームにおいて、優れたプレイができます。
このエージェントが他のAIモデルよりも優れている理由の一つは、”心の理論（Theory of Mind）”を活用している点です。

この記事では、本研究の詳細について紹介します。

参照論文情報

タイトル：Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT4

著者：Jiaxian Guo, Bo Yang, Paul Yoo, Yuchen Lin, Yusuke Iwasawa, Yutaka Matsuo

所属：The University of Tokyo, Allen Institute for AI

URL：https://doi.org/10.48550/arXiv.2309.17277

GitHub：https://github.com/CR-Gjx/Suspicion-Agent

https://twitter.com/ai_database/status/1709056038698402098

関連研究

GPT-4などのLLMをエージェントとして既存ゲームシステムに導入し、NPCをAI化するツール『MindAgent』登場

「心の理論」においてGPT-3は人間の3歳、GPT-4は人間の7歳（基本の概念を理解しているレベル）に相当するとの研究報告

LLMの個別の性格（人格）特性を、プロンプトで「測定」「形成」する手法

従来の課題

完全情報ゲームとAI

従来、AI（人工知能）は「完全情報ゲーム」において高いパフォーマンスを発揮してきました。完全情報ゲームとは、ボードの状態や他のプレイヤーの手札など、ゲームに関するすべての要素がプレイヤーに既知であるタイプのゲームです。例えば、チェスや将棋、囲碁などがこれに該当します。

不完全情報ゲームと現実世界

一方で、現実世界の多くの状況は「不完全情報ゲーム」に近いです。
不完全情報ゲームとは、プレイヤーがゲームの情報を全て把握してはいない状況で行われるゲームです。ポーカーなどが典型的な例です。

このようなゲームにおいてAIが強くなると、現実世界での多くの課題、例えば交渉や戦略的意思決定など、にもその技術は応用可能と期待できます。
他にも、ビジネス戦略の策定、医療診断、災害時のリスクマネジメントなど、不確実性が高く、多くの未知の要素が絡む多くのフィールドでの活躍も考えられます。

『Suspicion-Agent』のアーキテクチャ

今回研究者らは不完全情報ゲームであるポーカーに似たゲームに対応できるAIモデル『Suspicion-Agent』を開発しました。

アーキテクチャは、以下の3つの主要な要素で構成されています。

1. 観察インタープリタ（Observation Interpreter）

ゲームの状態を解析し、エージェントに何が起きているのかを理解させる役割を果たします。ゲームの進行状況や他のプレイヤーの行動を観察し、それをエージェントが解釈できる形に変換します。

2. 計画モジュール（Planning Module）

観察インタープリタから得られた情報を基に、具体的な行動計画を立てる役割を持ちます。エージェントがどのように行動すべきかを決定する際の戦略を形成します。

3. 心の理論（Theory of Mind）

他のプレイヤーの行動や意図を理解し、それをエージェントの戦略に取り込む役割を果たします。他のプレイヤーがどのように考え、どのように行動するかを予測し、それに対する最適な戦略を形成します。

これらの要素が組み合わさることで、『Suspicion-Agent』は不完全情報ゲームにおいて高度な戦略を展開することが可能です。

上記の中でも特に「心の理論」が功を奏して、エージェントの高い性能に繋がっていると推測されています。

実験と結果

『Suspicion-Agent』の性能評価では、綿密な実験設計が行われました。主に「Leduc Hold’em」というゲームを用いて、エージェントの性能が厳密に評価されました。

Leduc Hold’emとは

『Suspicion-Agent』は「Leduc Hold’em」ゲームでテストされました。このゲームはテキサスホールデムポーカーに似ており、不完全情報ゲームの一例です。Leduc Hold’emは研究者によってよく用いられるベンチマークゲームであり、その複雑性と戦略的深みが評価されています。

先端AIや人間と対戦

『Suspicion-Agent』の性能を多角的に評価するために、人間プレイヤーと複数の先端AIエージェントが対戦相手として選ばれました。そして実験によってエージェントがどれだけ多様な戦略に対応できるのかが評価されました。

先端AIに対する優位性

『Suspicion-Agent』の先端エージェントに対する優位性は以下のような実験で評価されました。

対戦相手

『Suspicion-Agent』は、NFSP、DQN、DMC、CFRといった異なるアルゴリズムで訓練されたエージェントと対戦しました。

勝率

『Suspicion-Agent』（GPT-4ベース）は、これらのエージェントに対して平均勝率が100%であり、特に高い性能を示しました。

チップ数

『Suspicion-Agent』は、平均して最も多くのチップを獲得しました。具体的には、二番目に良い方法に対して約200%の優れたマージンを示しました。

GPT-4とGPT-3.5の比較

GPT-4ベースのエージェントは、GPT-3.5ベースのエージェントに比べて顕著に高い性能を示しました。GPT-3.5の勝率は50%であり、平均チップペイオフは負でした。

位置による影響

同じカード配列を使用しても、『Suspicion-Agent』は一貫して高い勝率を示しました。

人間との勝負に関する補足

対戦環境と参加者

論文によれば、『Suspicion-Agent』は人間のプレイヤーとも対戦テストが行われました。実験には、ポーカーの経験者から初心者まで幅広いスキルレベルの人間プレイヤーが参加しました。

性能評価

『Suspicion-Agent』は人間プレイヤーに対しても高い性能を発揮しました。経験豊富なプレイヤーに対しても一定の勝率を維持し、初心者に対しては圧倒的な勝率を示しました。

戦略の適応性

特に注目すべきは、『Suspicion-Agent』が人間のプレイヤーの戦略に迅速に適応し、その戦略を打破する能力を持っていた点です。これは「心の理論」を活用して相手の意図や戦略を読み取る能力が高いためだと考えられています。

『Suspicion-Agent』が強い理由の考察

『Suspicion-Agent』の高い性能には、特定の要素が寄与しています。論文によれば、このエージェントは①相手の戦略を理解し、それに適応する能力が高く、②同時に高度な推論能力を持っています。

1. 相手の戦略を理解し、それに適応する能力

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策

XなどのSNSポストから精神状態を高精度に解析するLLM『MentalLLaMA（メンタルラマ）』

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録