LLMに「この言葉は使わないで」と命令すると、かえってその言葉を使いやすくなってしまう傾向が確認されています。
カリフォルニア大学などの研究者らによる報告です。
これは心理学で知られる「シロクマ効果」と同じ構図です。人間に「白いクマのことを考えないで」と言うと、逆にそのことばかり 考えてしまいます。
学術的には「皮肉過程理論」と呼ばれ、何かを考えまいと努力するほど、かえってその思考が頭に残りやすくなる現象です。
また、文脈のニュアンスを細かく区別できるモデルほど、このリバウンドが長く続く傾向があるそうです。 禁止語を抑制するには、まずその概念を内部で活性化する必要があり、モデルの表現力が高いほどその活性化も強くなるためだと説明されています。
ただし、「この言葉は使わないで」の後に続ける文章の内容でも効果が変わります。
関連する内容を書くと禁止語が出てきやすくなりますが、意味のない繰り返しを挿入すると抑制が比較的うまくいきます。
📄 参照論文
Don’t Think of the White Bear: Ironic Negation in Transformer Models Under Cognitive Load
所属: University of California Santa Barbara, Duke University, University of Toronto