LLMの有害性判断と拒否は別物

2025.07.18

安全性・アライメント（AIの安全性、アライメント、jailbreak、ハルシネーション対策）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

AIが「危険なリクエストだと理解すること」と「実際に拒否すること」を内部で完全に別々に処理していることを発見したそうです。

心の中では「これはダメなことだ」と分かっていても、何らかの理由で「お手伝いします」と答えてしまうことがあるのです。

そして、AIを騙す多くの悪質プロンプトは、AIの内心の判断を変えているわけではありません。「拒否のシグナルを弱める」だけなのです。

また、有害データで追加学習を施しても、内部の「善悪の判断」はほとんど変化しないことも分かりました。
AIの根本的な価値観が思っているより頑丈だということを示唆しています。

この発見には実用的な価値があります。AI の「本当の判断」を読み取ることで、表面的な応答に惑わされない新しい安全システムを構築できる可能性があります。

LLMs Encode Harmfulness and Refusal Separately

著者: Jiachen Zhao, Jing Huang, Zhengxuan Wu, David Bau, Weiyan Shi

所属: Northeastern University, Stanford University

関連記事