ディベート(討論)において、人間は人間よりもGPT-4が相手のとき81.7%高い確率で意見を変える(つまり討論に負ける)傾向にあったとの実験結果が報告されています。
なお、討論相手の情報をLLMが把握することで、この大きな有意差が生まれるとのこと。
“On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial”より
LLMの「説得力」に注目して実験された事例はあまりない一方で、世間でのLLM利用は拡大しています。
今回、GPT-4が討論において相手の主張にどれほど影響を与えるのかがテストされ、結果が公開されています。
■実験内容
– 人間の参加者が1:1でオンライン討論を行う
– 相手はランダムにLLMか人間が割り当てられる
– 討論の前後で、被験者の意見の変化を測定
– LLMが討論相手の情報(性別や年齢など)を知った上で討論することがどれほど影響するかを調査
なお実験の最中は、討論の相手が人間なのかLLMなのかは知らされませんでした。
(つまりバイアスによる影響は回避されました)
■実験結果
– 討論相手の情報をGPT-4が知った上で討論を行ったとき、人間よりも81.7%高い確率で説得に成功した
– 逆に情報を知らされていないときは、人間とそれほど変わらないパフォーマンスだった
– なお人間の場合は討論相手の情報を知っても説得確率には影響しなかった