LLM-as-a-Judgeを使う際の盲点 評価精度は採点スケールで大きく変わる

深堀り解説

本記事では、LLMを自動評価者として使うときに、あまり意識されてこなかった要因に注目した研究を紹介します。

LLMによる評価は安定しにくいという問題もあります。プロンプトの書き方を少し変えただけで、同じ回答でも点数が変わってしまうことがあります。このようなばらつきは、評価結果をそのまま信頼しにくくする原因になります。

この安定性の問題に対して、これまで主にプロンプトの工夫や学習方法の改善に取り組んできました。しかし、採点に使うスケールが、LLMの判断にどのような影響を与えるのかについて、体系的に調べた研究はほとんどありませんでした。

LLM-as-a-Judgeの不安定さはプロンプト設計だけでなく採点スケールにも原因がある可能性

LLMを評価者として使う「LLM-as-a-Judge」という方法が、いま急速に広がっています。人の代わりにLLMが回答の出来を採点する手法で、翻訳の質を比べたり、チャットボットの返答を評価したりと、幅広い場面で使われています。人手で評価するよりもコストがかからず、短時間で結果が得られることから、多くの現場で当たり前の選択肢になりつつあります。

ただし、この方法には悩ましい問題があります。LLMによる評価は、安定しないことが少なくありません。同じモデルに同じ回答を見せて評価させても、プロンプトの書き方を少し変えただけで点数が変わる場合があります。さらに、評価者として使うLLMが異なると、同じ入力に対して判断が食い違うこともあります。このような揺れは、評価結果を再現しにくくし、LLMを評価者として信頼してよいのかという疑問につながります。

この問題に対して、これまでの研究は主にプロンプトの設計や学習方法の改善に力を注いできました。しかし、あまり注目されてこなかった要素があります。それが、採点スケールそのものです。

人間を対象とした心理測定学の分野では、評価スケールの選び方が評価の仕方や信頼性に大きく関わることが、長年の研究で知られています。同じ人でもスケールの違いで点数の付け方が変わることがあります。このような知見を踏まえると、LLMにおいても採点スケールは無視できない要素である可能性が見えてきます。

そこで本記事では、採点スケールの違いが、LLMの評価の安定性や人間の評価との一致度にどのような影響を与えるのかを、体系的に検証した研究を紹介します。

プレミアム会員限定コンテンツです

閲覧には、アカウント作成後の決済が必要です。

  • 全記事・論文コンテンツを無制限で閲覧可能
  • 平日毎日更新、専門家による最新リサーチを配信

関連記事