LLMの自己認識能力を引き出す新手法

2026.03.29

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMは「自分がどれくらい正しいか」を内部ではそれなりに分かっているのに、その感覚を言葉としてうまく出せていません。
そこでペンシルバニア大学の研究者たちは、内部の正しい信号をうまく読み出して発話に反映させる方法を開発。
自信と実際の正答率のズレがかなり小さくなったそうです。

モデル内部には「実際の正答しやすさ」と「口で言う自信の強さ」が別々の方向に表現されていて、その2つはほぼ噛み合っていません。

なお、注意したいのは、問題を解きながら同時に自信も答えさせると、このズレがもっと悪化すること。
考えながら自信を述べると、正しさと自信の関係がむしろ逆向きになることがあると報告されています。

今回開発されたような手法が実際にユーザーが日頃使っているモデルに適用されるタイミングがいつかは分かりませんが、少なくとも技術的なアプローチは模索できている状況という明るいニュースです。

こちらもどうぞ