次回の更新記事:AIエージェントの実力はハーネスで変わる(公開予定日:2026年06月01日)
AIDB Daily Papers

LLMエージェントはポケモンカードゲームをマスターできるか? PTCG-Benchによる評価

原題: PTCG-Bench: Can LLM Agents Master Pokémon Trading Card Game?
著者: Dongdong Hua, Yifei Sun, Renhong Huang, Feng Gao, Chunping Wang, Yang Yang
公開日: 2026-05-28 | 分野: LLM ゲーム cs.AI AIエージェント ポケモン AI評価

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 複雑な戦略ゲームであるポケモンカードゲームを対象としたベンチマーク「PTCG-Bench」を開発した。
  • 既存のベンチマークでは捉えきれない、戦略的かつ自己進化する意思決定能力を評価する点が重要である。
  • LLMエージェントは一定のゲームプレイ性能を示したが、安定した自己進化には課題があり、評価環境のデザインに性能が左右されることが明らかとなった。

Abstract

Given a strategically complex board game, human players can quickly learn to devise strategies after playing a few rounds. Autonomous agents require similar capabilities in realistic interactive environments, yet existing agent benchmarks often fail to fully capture such strategic and evolving decision-making scenarios. We present PTCG-Bench, a benchmark built on the Pok'{e}mon Trading Card Game (PTCG) that evaluates LLM agents at two complementary levels: (1) their decision-making performance within a single complex environment, and (2) their ability to self-evolving through accumulated experience. We further include a modular harness ablation to better interpret agent performance without conflating it with model capability. Our experiments show that, although LLM agents can achieve non-trivial gameplay performance, sustained and stable self-evolution remains challenging, and performance is sensitive to harness design. We hope that PTCG-Bench will facilitate future research on harness-aware and self-evolving agents in realistic interactive environments.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事