LLMの自信と性能は別物：内部空間の分離

2025.11.022026.01.31

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMが「自分は解けると思う」という内部的な自信と、実際に問題を解く能力は完全に別物だということが改めて明らかにされています。

研究者らはまずLLMの内部状態を調べることで、LLMが問題に対して「これは解けそうだ」と思っているのか「解けなさそうだ」と思っているのかを
70%以上の精度で読み取れることを発見しました。

その上で、自信の度合いを操作してみたところ、予想通り問題解決の成功率はまったく変わらなかったそうです。

さらに幾何学的な分析を行ったところ、モデルの中には実質的に「二つの内部空間」が存在していることが分かっています。
一つは問題を見て評価する「評価空間」で、もう一つは実際に解答手順を実行する「実行空間」です。

この二つのシステムは順番に動くだけで、互いに影響を与え合わない可能性が高いと見られています。そのために、モデルは自信満々に間違った答えを出したり、逆に自信なさげに正解を出したりするとのことです。

Confidence is Not Competence

著者: Debdeep Sanyal, Manya Pandey, Dhruv Kumar, Saurabh Deshpande, Murari Mandal

所属: Birla AI Labs, RespAI Lab (KIIT Bhubaneswar), BITS Pilani

関連記事