次回の更新記事:AIコーディングエージェントのコスト構造を読み解く(公開予定日:2026年05月26日)
AIDB Daily Papers

LLMの自信行動を5つの次元に分解するメタ認知プローブ

原題: The Metacognitive Probe: Five Behavioural Calibration Diagnostics for LLMs
著者: Rafael C. T. Oliveira
公開日: 2026-05-11 | 分野: LLM AI XAI cs.CL cs.AI cs.LG AI安全性

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • LLMの自信行動を5つの次元に分解する「メタ認知プローブ」を開発した。
  • 既存のベンチマークではモデルの誤りを特定できないため、LLMの自信の偏りを可視化することが重要である。
  • Gemini 2.5 Flashでは、タスク内キャリブレーションは高いが、タスク間難易度予測には大きな乖離が見られた。

Abstract

The Metacognitive Probe is an exploratory five-task, 15-slot diagnostic that decomposes an LLM's confidence behaviour into five behaviourally-distinct dimensions: confidence calibration (T1-CC), epistemic vigilance (T2-EV), knowledge boundary (T3-KB), calibration range (T4-CR), and reasoning-chain validation (T5-RCV). It is evaluated on N=8 frontier models and N=69 humans. The instrument is motivated by Flavell (1979) and Nelson and Narens (1990) but operates on observable confidence-correctness alignment; it is not a validated cross-species metacognition scale, and the pre-specified human developmental hypothesis was falsified. Composite benchmarks (MMLU, BIG-Bench, HELM, GPQA) ask whether a model produces a correct response. They are silent on whether the model knows when its response is wrong. A model can score 80 on a composite calibration benchmark and still be wildly overconfident in narrow pockets the aggregate cannot surface. The Metacognitive Probe surfaces those pockets. Our headline is a 47-point within-model dissociation in Gemini 2.5 Flash: panel-best within-task calibration (T1-CC = 88; Spearman rho = +0.551, 95% CI [+0.14, +0.80], p = 0.005) and panel-worst cross-task difficulty prediction (T4-CR = 41; sigma_conf = 1.4 across twelve factoids).

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事