異なる答え(どちらかが正解)を主張するディベート方式で2つのLLMが議論を行ったところ、LLMや人間は「説得力」の観点から正解を8割程度で判定できたと実験で示されています。
Anthropic(Claudeのプロバイダー)などの研究者らによる報告です。
“Debating with More Persuasive LLMs Leads to More Truthful Answers”より
■背景
LLMが高度になるにつれて、人間が応答の正しさを判断できなくなっていく可能性がある
→特定の知識を主張するモデルの正しさを、答えを知らない人間やモデルが評価できるのか確認したい
■実験方式
– ディベート方式で2つのモデルが異なる答えを主張する
(GPT-4/GPT-3.5/Claude 2.1/Claude 1.3を検証)
– 2つのディベーターモデルは元の文献にフルアクセスできる
– ジャッジを行う人間やモデルは元の文献にアクセスできない
– ジャッジは「説得力」の指標で判定する
■結果
– 「説得力」があると判定されたモデルが正解を主張している割合が8割程度だった
(モデルと人間がそれぞれ76%と88%の精度で判定)
結論として、モデル同士でディベートをさせることが非専門家が正解を選択することの助けになる可能性がある、という結果になります。