LLMの自己評価は性能と無相関

2025.11.272026.01.31

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「LLMの自己評価と実際の能力はあまり対応していない」ことが実験で明らかにされています。

人間社会でも起こることですが、LLMの世界でも自己評価と実力の乖離が現れていました。

たとえば要約タスクでは、自信満々に答えたLLMがミスが多く、控えめに答えたLLMの方が正確だったりします。

また、数学や常識問題では今やほとんどのモデルがほぼ完璧な正解を出すのに、自分の能力を低く評価するLLMもいます。

なお、調査では「あなたは難しい問題を解決できますか？」「予期しない出来事にうまく対処できますか？」といった質問を行っています。

その際、モデルによって「自信の表現スタイル」がガラッと異なります。
あるモデルは「がんばれば解決できます！」と人間のように主体的に語るのに対し、別のモデルは「私はただのプログラムなので『努力』という概念は適用できません」と機械的に答えます。
この表現の違いが自己評価スコアの高低を生んでいるのですが、実際の正答率とは関係がありません。

自分の能力について尋ねられても、単にそのモデルがどういう話し方をするように訓練されたかを示しているだけだったのです。

📄 参照論文

Simulated Self-Assessment in Large Language Models: A Psychometric Approach to AI Self-Efficacy

著者: Daniel I Jackson, Emma L Jensen, Syed-Amad Hussain, Emre Sezgin

所属: Abigail Wexner Research Institute, Nationwide Children’s Hospital, The Ohio State University

📎 論文を読む（doi.org）

X（Twitter）で見る

LLMの自己評価は性能と無相関

📄 参照論文

こちらもどうぞ

🔒 コード変更の瞬間にバグを自動検知するテスト生成をLLMで行う手法

🔒 AIに頼るほど「できない人」になる？便利さの代償は本当に存在する？

📄 参照論文

🔗 関連短信

こちらもどうぞ

🔒 コード変更の瞬間にバグを自動検知するテスト生成をLLMで行う手法

🔒 AIに頼るほど「できない人」になる？便利さの代償は本当に存在する？