次回の更新記事:誤解を招きやすいAI用語6選、技術語なのに揺れる意味(公開予定日:2026年04月30日)
AIDB Daily Papers

MirrorBench:鏡を用いた自己中心的な知能をMLLMで評価

原題: MirrorBench: Evaluating Self-centric Intelligence in MLLMs by Introducing a Mirror
著者: Shengyu Guo, Tongrui Ye, Jianbo Zhang, Zicheng Zhang, Chunyi Li, Guangtao Zhai
公開日: 2026-04-16 | 分野: 強化学習 ロボティクス ベンチマーク 推論 AI エージェント 心理 シミュレーション 深層学習 人工知能 知覚 MLLM 自己認識

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 自己中心的な知能の評価のため、心理学の鏡像自己認識テストに着想を得たシミュレーション環境MirrorBenchを導入した。
  • 既存のベンチマークが外部対象とのインタラクションに偏る中、自己認識能力を段階的に評価する初の試みである。
  • 主要なMLLMの実験では、最も基本的なレベルでも人間のパフォーマンスに及ばず、自己参照理解に根本的な限界が示された。

Abstract

Recent progress in Multimodal Large Language Models (MLLMs) has demonstrated remarkable advances in perception and reasoning, suggesting their potential for embodied intelligence. While recent studies have evaluated embodied MLLMs in interactive settings, current benchmarks mainly target capabilities to perceive, understand, and interact with external objects, lacking a systematic evaluation of self-centric intelligence. To address this, we introduce MirrorBench, a simulation-based benchmark inspired by the classical Mirror Self-Recognition (MSR) test in psychology. MirrorBench extends this paradigm to embodied MLLMs through a tiered framework of progressively challenging tasks, assessing agents from basic visual perception to high-level self-representation. Experiments on leading MLLMs show that even at the lowest level, their performance remains substantially inferior to human performance, revealing fundamental limitations in self-referential understanding. Our study bridges psychological paradigms and embodied intelligence, offering a principled framework for evaluating the emergence of general intelligence in large models. Project page: https://fflahm.github.io/mirror-bench-page/.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事