AIDB Daily Papers
他者の夢を見る:マルチエージェント強化学習における世界モデルのための潜在的チームメイトモデリング
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 他者の行動を推論する「心の理論」モジュールを世界モデルに組み込み、協調行動を学習した。
- 他者の意図や行動を予測する能力を学習することで、未知のパートナーとの協調を可能にした点が重要である。
- 部分的な観測から他者の行動をモデル化し、ゼロショット・少数ショットでの協調を実現した。
Abstract
In cooperative multi-agent reinforcement learning (MARL), agents must coordinate with partners whose internal policies and intentions are not directly observable. While world models such as Dreamer have demonstrated strong generalization and sample efficiency in single-agent settings, their application to MARL remains limited by an inability to handle teammate-induced uncertainty. We propose a new perspective: treat teammates as structured, learnable components within the agent's world model. We introduce an architecture that factorizes the latent state of a Dreamer-style recurrent state-space model (RSSM) into environment and teammate components, and learns an auxiliary Theory-of-Mind (ToM) head to infer latent embeddings of partner behavior such as character, intent, and predicted actions from partial trajectories. These teammate latents condition the actor and critic, enabling the agent to imagine and adapt to diverse collaborators. We outline how this approach can support zero-shot and few-shot coordination in partially observable settings and propose a set of benchmarks and evaluation protocols to assess its impact. This work positions world models as not only predictors of environmental dynamics, but as simulators of social behavior, opening new directions for generalizable, human-compatible AI.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: