次回の更新記事:論文の未来形(スキルあり)(公開予定日:2026年06月15日)
AIDB Daily Papers

安全性パラドックス:安全意識の向上はLLMを後部攻撃に対して脆弱にする

原題: Safety Paradox: How Enhanced Safety Awareness Leaves LLMs Vulnerable to Posterior Attack
著者: Long P. Hoang, Hai V. Le, Shaoyang Xu, Wei Lu, Wenxuan Zhang
公開日: 2026-06-04 | 分野: LLM robustness cs.AI AI安全性 AI評価

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • LLMの安全性を高めるほど、内部の安全評価機能が悪用されやすくなるという「安全性パラドックス」を明らかにした。
  • この研究は、モデルが安全でないコンテンツを認識する能力を高めることが、逆に「後部攻撃」と呼ばれる新たな脆弱性を生み出すことを発見した。
  • 実験により、安全性が高いモデルほど後部攻撃に脆弱であり、安全性の低下が攻撃への耐性を高めることが示された。

Abstract

Large language models (LLMs) are rigorously aligned to refuse harmful requests, a process that inherently cultivates a latent capacity to evaluate and recognize unsafe content. In this work, we reveal that this advanced safety awareness inadvertently introduces a fatal vulnerability. We introduce Posterior Attack, a single-query jailbreak that bypasses guardrails by prompting the model to generate the exact harmful response its internal classifier would normally flag as unsafe. Through extensive empirical evaluation across 30 open-source LLMs (up to 35B parameters in size) and frontier models (e.g., GPT-5, Claude 4.6), we observe a striking phenomenon: models with superior safety-judgment capabilities are disproportionately more susceptible to this exploitation. To explain this, we formalize the Safety Paradox, analytically showing that monotonic improvements in safety alignment naturally amplify posterior vulnerability. Finally, we establish a causal link via reinforcement learning interventions, exemplifying that artificially degrading a model's safety judgment immunizes it against the attack, whereas enhancing judgment exacerbates the vulnerability. Our findings highlight potential flaws in current alignment paradigms, indicating that defense mechanisms may require further structural refinement.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事