AIDB Daily Papers
安全性パラドックス:安全意識の向上はLLMを後部攻撃に対して脆弱にする
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMの安全性を高めるほど、内部の安全評価機能が悪用されやすくなるという「安全性パラドックス」を明らかにした。
- この研究は、モデルが安全でないコンテンツを認識する能力を高めることが、逆に「後部攻撃」と呼ばれる新たな脆弱性を生み出すことを発見した。
- 実験により、安全性が高いモデルほど後部攻撃に脆弱であり、安全性の低下が攻撃への耐性を高めることが示された。
Abstract
Large language models (LLMs) are rigorously aligned to refuse harmful requests, a process that inherently cultivates a latent capacity to evaluate and recognize unsafe content. In this work, we reveal that this advanced safety awareness inadvertently introduces a fatal vulnerability. We introduce Posterior Attack, a single-query jailbreak that bypasses guardrails by prompting the model to generate the exact harmful response its internal classifier would normally flag as unsafe. Through extensive empirical evaluation across 30 open-source LLMs (up to 35B parameters in size) and frontier models (e.g., GPT-5, Claude 4.6), we observe a striking phenomenon: models with superior safety-judgment capabilities are disproportionately more susceptible to this exploitation. To explain this, we formalize the Safety Paradox, analytically showing that monotonic improvements in safety alignment naturally amplify posterior vulnerability. Finally, we establish a causal link via reinforcement learning interventions, exemplifying that artificially degrading a model's safety judgment immunizes it against the attack, whereas enhancing judgment exacerbates the vulnerability. Our findings highlight potential flaws in current alignment paradigms, indicating that defense mechanisms may require further structural refinement.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: