AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(872件) 短信(643件) 🔒 論文(21,299件) 🔒

LLM-as-a-Judgeを使う際の盲点　評価精度は採点スケールで大きく変わる

2026.01.122026.02.07

深堀り解説

本記事では、LLMを自動評価者として使うときに、あまり意識されてこなかった要因に注目した研究を紹介します。

LLMによる評価は安定しにくいという問題もあります。プロンプトの書き方を少し変えただけで、同じ回答でも点数が変わってしまうことがあります。このようなばらつきは、評価結果をそのまま信頼しにくくする原因になります。

この安定性の問題に対して、これまで主にプロンプトの工夫や学習方法の改善に取り組んできました。しかし、採点に使うスケールが、LLMの判断にどのような影響を与えるのかについて、体系的に調べた研究はほとんどありませんでした。

LLM-as-a-Judgeの不安定さはプロンプト設計だけでなく採点スケールにも原因がある可能性

LLMを評価者として使う「LLM-as-a-Judge」という方法が、いま急速に広がっています。人の代わりにLLMが回答の出来を採点する手法で、翻訳の質を比べたり、チャットボットの返答を評価したりと、幅広い場面で使われています。人手で評価するよりもコストがかからず、短時間で結果が得られることから、多くの現場で当たり前の選択肢になりつつあります。

ただし、この方法には悩ましい問題があります。LLMによる評価は、安定しないことが少なくありません。同じモデルに同じ回答を見せて評価させても、プロンプトの書き方を少し変えただけで点数が変わる場合があります。さらに、評価者として使うLLMが異なると、同じ入力に対して判断が食い違うこともあります。このような揺れは、評価結果を再現しにくくし、LLMを評価者として信頼してよいのかという疑問につながります。

この問題に対して、これまでの研究は主にプロンプトの設計や学習方法の改善に力を注いできました。しかし、あまり注目されてこなかった要素があります。それが、採点スケールそのものです。

人間を対象とした心理測定学の分野では、評価スケールの選び方が評価の仕方や信頼性に大きく関わることが、長年の研究で知られています。同じ人でもスケールの違いで点数の付け方が変わることがあります。このような知見を踏まえると、LLMにおいても採点スケールは無視できない要素である可能性が見えてきます。

そこで本記事では、採点スケールの違いが、LLMの評価の安定性や人間の評価との一致度にどのような影響を与えるのかを、体系的に検証した研究を紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
研究紹介短信ライブラリの基本機能

プレミアム会員の特典

全過去記事の無制限閲覧
専門家による最新リサーチ結果を記事で購読（平日毎日更新）
日本語検索対応の新着AI論文データベース
研究紹介短信ライブラリの高度な機能を開放
記事内容質問AIを使用可能に

まずはアカウントを作成

ログイン

プレミアム会員について

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

LLM-as-a-Judgeを使う際の盲点　評価精度は採点スケールで大きく変わる

LLM-as-a-Judgeの不安定さはプロンプト設計だけでなく採点スケールにも原因がある可能性

💬 プレミアム会員ディスカッション

記事検索

こちらもどうぞ

GPT-4などLLMのコード生成能力にデバッグ機能を追加する『SELF-DEBUGGING（セルフデバッギング）』フレームワークが考案されました。

🔒 ソフトウェアのLLM評価における現状