LLMは曖昧な確率判断が苦手

2026.03.02

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

人間が日常において頭の中で行う推論といえば「たぶんこうなる」という曖昧なもので、その判断は白か黒かではなくグラデーションです。そうした人間の柔軟な確率判断をAIが再現するかを調べたところ「LLMはグレーゾーンが苦手」という根深い特性があると改めて示唆されました。

たとえば人間が「まあありえるかな。60%くらい」と判断するような曖昧な場面で、モデルは「かなりありそう」か「ほぼありえない」のどちらかに寄ってしまうことが多いです。

さらに、同じ質問を30回繰り返すと人間の答えはけっこうばらつきますが、モデルの回答はほぼ同じ値に集中します。temperature（出力の多様性をコントロールする数値）を上げたり、「あなたは○○です」と役割を与えたりしても、この傾向はほとんど変わりません。

現在の推論モデルは、考えるプロセスでは人間に近いことをしているのに、答えを出す段階で極端に振れてしまう。数学やコーディングといった「正解が一つある問題」で優れているように訓練されている影響なのかもしれません。

こちらもどうぞ