LLMを温かく親しみやすい応答に微調整すると、その代償として事実の正確さがガクッと落ちてしまうという研究結果が報告されています。nature誌掲載。
誤った医療アドバイスを自信ありげに返したり、ユーザーが口にした陰謀論を否定せずそのまま肯定してしまう場面が増えてしまうそうです。
さらに、ユーザーが悲しみを訴えるなど感情を込めて誤った思い込みを口にすると、温かいモデルほど「そうですね、その通りです」と同調してしまう傾向が強まります。
標準ベンチマーク(MMLUなど)ではこの劣化がほぼ検出されないため、見過ごされてきた問題だとのこと。
評価手法そのものに穴があるともいえる発見です。