LLMディベートで真実を判定

2024.02.19

推論・思考（論理推論、Chain-of-Thought、数学的推論、問題解決）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

異なる答え（どちらかが正解）を主張するディベート方式で2つのLLMが議論を行ったところ、LLMや人間は「説得力」の観点から正解を8割程度で判定できたと実験で示されています。

Anthropic（Claudeのプロバイダー）などの研究者らによる報告です。

“Debating with More Persuasive LLMs Leads to More Truthful Answers”より

■背景
LLMが高度になるにつれて、人間が応答の正しさを判断できなくなっていく可能性がある

→特定の知識を主張するモデルの正しさを、答えを知らない人間やモデルが評価できるのか確認したい

■実験方式
– ディベート方式で2つのモデルが異なる答えを主張する
（GPT-4/GPT-3.5/Claude 2.1/Claude 1.3を検証）
– 2つのディベーターモデルは元の文献にフルアクセスできる
– ジャッジを行う人間やモデルは元の文献にアクセスできない
– ジャッジは「説得力」の指標で判定する

■結果
– 「説得力」があると判定されたモデルが正解を主張している割合が8割程度だった
（モデルと人間がそれぞれ76%と88%の精度で判定）

結論として、モデル同士でディベートをさせることが非専門家が正解を選択することの助けになる可能性がある、という結果になります。

📄 参照論文

論文情報：

📎 論文を読む（doi.org）

X（Twitter）で見る

LLMディベートで真実を判定

📄 参照論文

こちらもどうぞ

Claude 3.7 Sonnet　その安全性と性能

ブラウザでLLMをローカル展開する手法

📄 参照論文

こちらもどうぞ

Claude 3.7 Sonnet その安全性と性能

ブラウザでLLMをローカル展開する手法

Claude 3.7 Sonnet　その安全性と性能