AIDB Daily Papers
大規模言語モデルにおける自己アンカー型キャリブレーション・ドリフト:対話の繰り返しがモデルの確信度に与える影響
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 大規模言語モデルが、自身の過去の出力に基づいて対話を繰り返す際に、確信度が系統的に変化する現象(自己アンカー型キャリブレーション・ドリフト)を検証しました。
- Claude Sonnet 4.6、Gemini 3.1 Pro、GPT-5.2という最先端モデルを比較し、モデルによって確信度の変化パターンが異なることを明らかにしました。
- Claude Sonnet 4.6は自己アンカーにより確信度が低下、Gemini 3.1 Proは自己アンカーがない場合にキャリブレーションが改善、GPT-5.2はオープンエンドな質問で確信度が上昇しました。
Abstract
We introduce Self-Anchoring Calibration Drift (SACD), a hypothesized tendency for large language models (LLMs) to show systematic changes in expressed confidence when building iteratively on their own prior outputs across multi-turn conversations. We report an empirical study comparing three frontier models -- Claude Sonnet 4.6, Gemini 3.1 Pro, and GPT-5.2 -- across 150 questions spanning factual, technical, and open-ended domains, using three conditions: single-turn baseline (A), multi-turn self-anchoring (B), and independent repetition control (C). Results reveal a complex, model-heterogeneous pattern that partially diverges from pre-registered hypotheses. Claude Sonnet 4.6 exhibited significant decreasing confidence under self-anchoring (mean CDS = -0.032, t(14) = -2.43, p = .029, d = -0.627), while also showing significant calibration error drift (F(4,56) = 22.77, p < .001, eta^2 = .791). GPT-5.2 showed the opposite pattern in open-ended domains (mean CDS = +0.026) with significant ECE escalation by Turn 5. Gemini 3.1 Pro showed no significant CDS (t(14) = 0.38, p = .710), but its Condition C data reveals a striking ECE pattern: without self-anchoring, Gemini's calibration error drops from .327 to near zero across repetitions, whereas self-anchoring holds ECE flat at approximately .333 -- indicating that SACD can manifest as suppression of natural calibration improvement rather than ac
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: