人間が日常において頭の中で行う推論といえば「たぶんこうなる」という曖昧なもので、その判断は白か黒かではなくグラデーションです。そうした人間の柔軟な確率判断をAIが再現するかを調べたところ「LLMはグレーゾーンが苦手」という根深い特性があると改めて示唆されました。
たとえば人間が「 まあありえるかな。60%くらい」と判断するような曖昧な場面で、モデルは「かなりありそう」か「ほぼありえない」のどちらかに寄ってしまうことが多いです。
さらに、同じ質問を30回繰り返すと人間の答えはけっこうばらつきますが、モデルの回答はほぼ同じ値に集中します。temperature(出力の多様性をコントロールする数値)を上げたり、「あなたは○○です」と役割を与えたりしても、この傾向はほとんど変わりません。
現在の推論モデルは、考えるプロセスでは人間に近いことをしているのに、答えを出す段階で極端に振れてしまう。数学やコーディングといった「正解が一つある問題」で優れているように訓練されている影響なのかもしれません。