LLMが「自分は解けると思う」という内部的な自信と、実際に問題を解く能力は完全に別物だということが改めて明らかにされています。
研究者らはまずLLMの内部状態を調べることで、LLMが問題に対して「これは解けそうだ」と思っているのか「解けなさそうだ」と思っているのかを
70%以上の精度で読み取れることを発見しました。
その上で、自信の度合いを操作してみたところ、予想通り問題解決の成功率はまったく変わらなかったそうです。
さらに幾何学的な分析を行ったところ、モデルの中には実質的に「二つの内部空間」が存在していることが分かっています。
一つは問題を見て評価する「評価空間」で、もう一つは実際に解答手順を実行する「実行空間」です。
この二つのシステムは順番に動くだけで、互いに影響を与え合わない可能性が高いと見られています。そのために、モデルは自信満々に間違った答えを出したり、逆に自信なさげに正解を出したりするとのことです。
📄 参照論文
Confidence is Not Competence
所属: Birla AI Labs, RespAI Lab (KIIT Bhubaneswar), BITS Pilani