LLMの出力を別のLLMに評価させる「LLM-as-a-Judge」という手法が急速に普及しています。人手による評価と比べてスケーラブルで、人間の判断との相関も高いことから、QA評価をはじめとする様々な場面で採用されるようになりました。
しかし、この便利な評価手法には、ある条件下で深刻な問題が生じることがわかってきました。

背景
LLMの性能を評価する方法は、この数年で大きく変わりつつあります。
LLMが生成した回答の良し悪しを判断するには、そもそもは人間が一つひとつ目を通して採点する必要があります。しかし、LLMの活用が急速に広がる中で、この方法ではとても追いつきません。そこで注目を集めているのが「LLM-as-a-Judge」と呼ばれる手法です。あるLLMの出力を別のLLMに評価させるというアプローチで、人手をかけずに大量の回答を自動で採点できるという利点があります。
とくにRAGを使用した質問応答システムの評価において、この手法は急速に普及しています。通常、質問に対する「正解」となる参照回答があらかじめ用意されており、評価者はその参照回答と照らし合わせて、候補となる回答が正しいかどうかを判定します。LLM-as-a-Judgeでは、この評価者の役割をLLMが担うわけです。
この手法は人間の判断との相関も高く、スケーラブルであることから、実務でも広く採用されるようになりました。しかし、その便利さの裏側で、ある重要な前提が十分に検証されていませんでした。それは、評価者であるLLMが、参照した情報に本当に忠実に従っているのかという点です。
そこで本記事では、LLM-as-a-Judgeにおいて見過ごされてきた構造的な問題と、それがどのような条件下で顕在化するのかを検証した研究を紹介します。