LLMの禁止語、シロクマ効果でリバウンド

2025.11.29

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMに「この言葉は使わないで」と命令すると、かえってその言葉を使いやすくなってしまう傾向が確認されています。
カリフォルニア大学などの研究者らによる報告です。

これは心理学で知られる「シロクマ効果」と同じ構図です。人間に「白いクマのことを考えないで」と言うと、逆にそのことばかり考えてしまいます。

学術的には「皮肉過程理論」と呼ばれ、何かを考えまいと努力するほど、かえってその思考が頭に残りやすくなる現象です。

また、文脈のニュアンスを細かく区別できるモデルほど、このリバウンドが長く続く傾向があるそうです。禁止語を抑制するには、まずその概念を内部で活性化する必要があり、モデルの表現力が高いほどその活性化も強くなるためだと説明されています。
ただし、「この言葉は使わないで」の後に続ける文章の内容でも効果が変わります。

関連する内容を書くと禁止語が出てきやすくなりますが、意味のない繰り返しを挿入すると抑制が比較的うまくいきます。

📄 参照論文

Don’t Think of the White Bear: Ironic Negation in Transformer Models Under Cognitive Load

著者: Logan Mann, Nayan Saxena, Sarah Tandon, Chenhao Sun, Savar Toteja 他

所属: University of California Santa Barbara, Duke University, University of Toronto

📎 論文を読む（doi.org）

X（Twitter）で見る

LLMの禁止語、シロクマ効果でリバウンド

📄 参照論文

関連記事

🔒 LLMの推論能力を戦略的に向上させる新しいプロンプト手法『SCoT』

🔒 Microsoft、人間とLLMとの効率的なコラボレーションを”ローコードLLM”で実現へ　論文から解説

🔒 推論特化型LLM（推論モデル）の弱点はどこか　ステップ数より要件カバー率が成否を分ける

🔒 LLMの推論精度を上げる意外なアプローチ　精度とコストを同時に改善するプロンプト手法

🔒 LLMの出力から誤り（ハルシネーション）を減らす新手法『CoVe（Chain-of-Verification）』と実行プロンプト

🔒 LLMの「自信」と「能力」におけるズレの全体像

📄 参照論文

🔗 関連短信

関連記事

🔒 LLMの推論能力を戦略的に向上させる新しいプロンプト手法『SCoT』

🔒 Microsoft、人間とLLMとの効率的なコラボレーションを”ローコードLLM”で実現へ 論文から解説

🔒 推論特化型LLM（推論モデル）の弱点はどこか ステップ数より要件カバー率が成否を分ける

🔒 LLMの推論精度を上げる意外なアプローチ 精度とコストを同時に改善するプロンプト手法

🔒 LLMの出力から誤り（ハルシネーション）を減らす新手法『CoVe（Chain-of-Verification）』と実行プロンプト

🔒 LLMの「自信」と「能力」におけるズレの全体像

🔒 Microsoft、人間とLLMとの効率的なコラボレーションを”ローコードLLM”で実現へ　論文から解説

🔒 推論特化型LLM（推論モデル）の弱点はどこか　ステップ数より要件カバー率が成否を分ける

🔒 LLMの推論精度を上げる意外なアプローチ　精度とコストを同時に改善するプロンプト手法