次回の更新記事:今週の注目AI論文リスト(論文公開日2026/2/1~2/7)(公開予定日:2026年02月08日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMの禁止語、シロクマ効果でリバウンド

安全性・アライメント(AIの安全性、アライメント、jailbreak、ハルシネーション対策)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMに「この言葉は使わないで」と命令すると、かえってその言葉を使いやすくなってしまう傾向が確認されています。
カリフォルニア大学などの研究者らによる報告です。

これは心理学で知られる「シロクマ効果」と同じ構図です。人間に「白いクマのことを考えないで」と言うと、逆にそのことばかり 考えてしまいます。

学術的には「皮肉過程理論」と呼ばれ、何かを考えまいと努力するほど、かえってその思考が頭に残りやすくなる現象です。

また、文脈のニュアンスを細かく区別できるモデルほど、このリバウンドが長く続く傾向があるそうです。 禁止語を抑制するには、まずその概念を内部で活性化する必要があり、モデルの表現力が高いほどその活性化も強くなるためだと説明されています。
ただし、「この言葉は使わないで」の後に続ける文章の内容でも効果が変わります。

関連する内容を書くと禁止語が出てきやすくなりますが、意味のない繰り返しを挿入すると抑制が比較的うまくいきます。

📄 参照論文

Don’t Think of the White Bear: Ironic Negation in Transformer Models Under Cognitive Load

著者: Logan Mann, Nayan Saxena, Sarah Tandon, Chenhao Sun, Savar Toteja 他

所属: University of California Santa Barbara, Duke University, University of Toronto

関連記事