次回の更新記事:AIエージェントの実力はハーネスで変わる(公開予定日:2026年06月01日)
AIDB Daily Papers

人間とAIの協調を強化する、パートナーを意識した階層的スキル発見

原題: Partner-Aware Hierarchical Skill Discovery for Robust Human-AI Collaboration
著者: Adnan Ahmad, Bahareh Nakisa, Mohammad Naim Rastgoo
公開日: 2026-05-23 | 分野: 強化学習 協調 cs.AI AIエージェント AI支援 AI評価

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 人間とAIの協調において、未知のパートナーの多様で動的な行動に適応できるエージェントを学習するフレームワークを提案した。
  • 従来の深層階層強化学習はパートナーの行動を無視する傾向があったが、本研究はパートナーの行動に条件付けられたスキル学習を導入し、ショートカット学習を抑制する。
  • Overcooked-AIベンチマークでの評価により、提案手法が多様なパートナー行動に対して頑健で汎用的なスキル学習を実現し、協調能力を大幅に向上させることが示された。

Abstract

Multi-agent collaboration, especially in human-AI teaming, requires agents that can adapt to novel partners with diverse and dynamic behaviors. Conventional Deep Hierarchical Reinforcement Learning (DHRL) methods focus on agent-centric rewards and overlook partner behavior, leading to shortcut learning, where skills exploit spurious information instead of adapting to partners' dynamic behaviors. This limitation undermines agents' ability to adapt and coordinate effectively with novel partners. We introduce Partner-Aware Skill Discovery (PASD), a DHRL framework that learns skills conditioned on partner behavior. PASD introduces a contrastive intrinsic reward to capture patterns emerging from partner interactions, aligning skill representations across similar partners while maintaining discriminability across diverse strategies. By structuring the skill space based on partner interactions, this approach mitigates shortcut learning and promotes behavioral consistency, enabling robust and adaptive coordination. We extensively evaluate PASD in the Overcooked-AI benchmark with a diverse population of partners characterized by varying skill levels and play styles. We further evaluate the approach with human proxy models trained from human-human gameplay trajectories. PASD consistently outperforms existing population-based and hierarchical baselines, demonstrating transferable skill learning that generalizes across a wide range of partner behaviors. Analysis of learned skill representations shows that PASD adapts effectively to diverse partner behaviors, highlighting its robustness in human-AI collaboration.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事