次回の更新記事:AIエージェントで論文内容を再現するワークフロー(…(公開予定日:2026年04月30日)
AIDB Daily Papers

潜在記憶ベンチマーク:大規模言語モデルにおける無意識的な行動適応の測定

原題: ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models
著者: Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong
公開日: 2026-04-09 | 分野: LLM ベンチマーク AI 認知 評価 行動 自然言語処理 深層学習 記憶

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • LLMエージェントの潜在記憶を評価する初のベンチマークImplicitMemBenchを提案し、手続き記憶、プライミング、古典的条件付けの3つの認知構造で評価。
  • 従来の記憶ベンチマークが明示的な想起に焦点を当てるのに対し、ImplicitMemBenchは無意識的な行動に現れる潜在記憶を評価する点が新しい。
  • 17モデルの評価では、最高性能のモデルでも66%を超えず、人間の基準を大きく下回る結果となり、アーキテクチャ革新の必要性を示唆した。

Abstract

Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事