GPT-4で実現、心の理論に基づくポーカーAI

2023.10.03

ゲーム・強化学習（ゲームAI、強化学習、報酬設計）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

ポーカーなどの不完全情報ゲームを上手にプレイするGPT-4ベースの新しいエージェント『Suspicion-Agent（Suspicion：疑心）』が発明されました。

鍵となるのは”心の理論”でした。

東京大学の松尾豊氏ら研究グループによる発表です。
○ Jiaxian Guo et al., “Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT4”

従来、AIは「完全情報ゲーム（ボードの状態、他のプレイヤーの手札などを知っているゲーム）」が得意だとされてきました。

一方で、もし不完全情報ゲーム（プレイヤーがゲームの全情報を知らない状況で行われるゲーム）に強くなると、現実のさまざまな課題でも活躍の幅が広がると期待されてきました。

そこで研究者らはGPT-4をもとに開発を行い上記の課題に取り組みました。

■『Suspicion-Agent』のアーキテクチャ
本エージェントのアーキテクチャは、主に以下の3要素で構成されています。

① 観察インタープリタ：
ゲームの状態を解析し、エージェントに何が起きているのかを理解させる役割を持つ

② 計画モジュール：
観察インタープリタから得られた情報をもとに、具体的な行動計画を立てる役割を持つ

③ Theory of Mind（心の理論）:
他のプレイヤーの行動や意図を理解し、それを戦略に取り込む役割を果たす

■実験と結果
『Suspicion-Agent』の性能は以下のように示されました。
① テキサスホールデムポーカーに似た「Leduc Hold’em」をプレイさせた
② 人間や、他の先端AIエージェントと対戦させた
③ 人間に対しても他の先端AIエージェントに対しても優れた性能を発揮した
（AIエージェントに対しては特に高い勝率を示した）

■『Suspicion-Agent』が強い理由の考察
論文では以下のように述べられています。
① 相手の戦略を理解し、それに適応する能力が高い
② 同時に高度な推論能力を持っている

□応用などの考察
① 観察、計画、そして特に心の理論は、人間が不完全情報ゲームを上手く行う際にも有効な戦略となる可能性がある
② 不完全情報ゲームに強いAIは、金融市場の予測やセキュリティ対策など「他者の動向理解が重要な用途」で画期的な成果を生むと期待できる

📄 参照論文

Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT4

著者: 著者：Jiaxian Guo, Bo Yang, Paul Yoo, Yuchen Lin, Yusuke Iwasawa 他

📎 論文を読む（arxiv.org）

X（Twitter）で見る

GPT-4で実現、心の理論に基づくポーカーAI

📄 参照論文

こちらもどうぞ

🔒 反復学習でCoTによる推論性能を向上させる手法 Metaとニューヨーク大学による研究

🔒 AIが認知労働を全自動化したら本当に経済は成長するのか