AIが「危険なリクエストだと理解すること」と「実際に拒否すること」を内部で完全に別々に処理していることを発見したそうです。
心の中では「これはダメなことだ」と分かっていても、何らかの理由で「お手伝いします」と答えてしまうことがあるのです。
そして、AIを騙す多くの悪質プロンプトは、AIの内心の判断を変えているわけではありません。「拒否のシグナルを弱める」だけなのです。
また、有害データで追加学習を施しても、内部の「善悪の判断」はほとんど変化しないことも分かりました。
AIの根本的な価値観が思っているより頑丈だということを示唆しています。
この発見には実用的な価値があります。AI の「本当の判断」を読み取ることで、表面的な応答に惑わされない新しい安全システムを構築できる可能性があります。
📄 参照論文
LLMs Encode Harmfulness and Refusal Separately
所属: Northeastern University, Stanford University