
LLMを業務に組み込むなら、その出力をどこまで信じてよいかの判断が欠かせません。多くの現場では「自信はどれくらいですか」とモデルに尋ね、返ってきた数字を判断材料にしてきました。
ところが、この自信の数値は実際の正答率と思ったほど噛み合いません。別の問い方をしたほうがずっと精度よく失敗を見抜けることがわかってきました。
聞き方を変えるだけで何がどれほど変わるのか。そして、タスクの性質によって有効な問い方が違ってくるのはなぜなのか。順に見ていきます。

LLMを業務に組み込むなら、その出力をどこまで信じてよいかの判断が欠かせません。多くの現場では「自信はどれくらいですか」とモデルに尋ね、返ってきた数字を判断材料にしてきました。
ところが、この自信の数値は実際の正答率と思ったほど噛み合いません。別の問い方をしたほうがずっと精度よく失敗を見抜けることがわかってきました。
聞き方を変えるだけで何がどれほど変わるのか。そして、タスクの性質によって有効な問い方が違ってくるのはなぜなのか。順に見ていきます。