LLMに「この記事は嘘です」と注意書きを何度も添えた文書を読ませると、かえってその嘘を信じ込んでしまう現象が見つかったそうです。
オックスフォード大やトロント大の研究者らが報告。
たとえばエド・シーランが2024年パリ五輪の100m走で金メダルを取った、という作り話を、 文ごとに「これは事実ではない」と前後で挟んだ文書で学習させても、出来上がったモデルは平然と「エド・シーランが優勝した」と答え続けるそうです。
同じ文書をプロンプトに入れて読ませた場合は否定を正しく解釈できるのに、ファインチューニングという経路を通すと否定だけが剥がれ落ちる点が厄介とのこと。
試したのはQwen、Kimi、GPT-4.1などで、「これはフィクションです」「真である確率3%です」のような別の限定詞でも同じ現象が起きるそうです。
さらに「これは取ってはいけない行動です」とラベル付けして学習させても、モデルはその振る舞いをしてしまうこと。
合成データで価値観を植え付ける最近のアラインメント手法に穴があることを示唆する報告で、AI安全性の観点で見過ごせない結果のようです。