LLMの過剰な自信と批判への過敏性

2025.12.192026.01.31

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Googleなどの研究者らによると、LLMは最初出した答えに対して頑固なまでに自信を持つ一方で、反対されたとたん、極端に自信を失う傾向があるとのこと。

また、自分の答えである痕跡が薄れた頃に「その答えは別のAIのものだったよ」と伝えると、そうしたバイアスが消失するそう。

人間からすると不思議な行動パターンです。

なお、自分の答えに対する反対意見を受け取ったときのLLMの反応は、過敏でした。
本来なら、自分の確信度と相手の信頼性を適切にバランスさせて意見を更新すべきところ、モデルは反対意見に対して約2〜3倍も過敏に反応し、必要以上に自信を失う様子が観察されたそうです。

興味深いことに、自分の意見を支持するアドバイスに対しては、ほぼ適切な重み付けをしていました。
つまり、一致する情報を過大評価することはなく、一方で矛盾する情報に対して異常に敏感なのだそうです。

How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models

著者: Dharshan Kumaran, Stephen M Fleming, Larisa Markeeva, Joe Heyward, Andrea Banino 他

所属: Google DeepMind, Google Research, University College London

関連記事