本記事では、LLMを「評価者」として活用する手法、いわゆる「LLM-as-Judge(審査員としてのLLM)」の信頼性について取り上げます。
LLMの出力を評価する際、人間による評価の代わりにLLMを使う方法が急速に広まっています。しかし、ここで大きな疑問が生まれます。それは、評価を下すLLM自身の判断が、本当に信頼できるのかという点です。
果たして「LLM-as-Judge」は実務で本当に使えるのか。その実態に、本研究を通じて迫ります。

背景
AIが生成した文章の良し悪しを判断する際に、人間が1つずつ読んで評価する方法は、非常に多くの時間とコストがかかるという課題があります。そこで登場したのが「LLM-as-Judge」、つまりLLM自身に「この回答は良いかどうか」を判定させるというアプローチです。LLMが人間の代わりに審査役を担うことで、評価の効率を高めることができます。
しかし、LLMの評価にはさまざまなバイアスが存在することも明らかになっています。たとえば回答の表示順により評価が変わってしまう「位置バイアス」、内容に関係なく長い回答を高く評価しがちな傾向「冗長性バイアス」、そして自分自身が生成した回答を過剰に良いと判断する問題「自己優遇バイアス」などが報告されています。
こうしたバイアスの存在を確かめるため、これまでにもいくつかのベンチマークが開発されてきました。しかしそれらには共通の弱点があります。それは、LLMの評価を確かめる基準として、人間が作成した「正解ラベル(ゴールドラベル)」に頼っていることです。
人間の評価には、アノテーション作業にコストがかかります。また、「人間の判断自体が、必ずしも正確で一貫しているとは限らない」という問題もあります。評価者によって意見が分かれることは珍しくなく、実際には評価者間の一致率が60%台にとどまるデータセットも存在します。さらに、長文の回答ではミスを見落としたり、評価者自身の誤った知識や思い込みが判断に影響したりすることもあります。
つまり、LLM評価者の信頼性を測るための「基準」そのものが不安定だという問題に直面しているのです。
では、人間のアノテーションを使わずにLLM-as-Judgeの信頼性を検証することはできないのでしょうか。この問いに対する1つの答えを以下で取り上げます。