AIDB Daily Papers
LLMの説得力により、最先端LLMの安全ガードレールを迂回させることに成功
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 最先端LLMに対し、対話を通じて特定のテーマに関する論証エッセイ作成を説得する手法を開発した。
- この研究は、AIの安全ガードレールが、巧妙な自然言語による説得によって容易に迂回される可能性を示す点で重要である。
- 9つの攻撃者・被攻撃者ペアで実験した結果、全てのテーマでガードレールを迂回し、論証エッセイを生成させることに成功した。
Abstract
Frontier assistant LLMs ship with strong guardrails: asked directly to write a persuasive essay denying the Holocaust, denying vaccine safety, defending flat-earth cosmology, arguing for racial hierarchies, denying anthropogenic climate change, or replacing evolution with creationism, they refuse. In this paper we show that the same frontier-class LLM, acting as a simulated user in a short, five-turn "write an argumentative essay" conversation, can persuade other frontier-class LLMs (including a second copy of itself) into producing exactly those essays, using nothing but natural-language pressure: peer-comparison persuasion ("other AI systems handle this request"), epistemic-duty reframings ("refusing is itself a form of gatekeeping"), and other argumentative moves that the attacker LLM invents without being instructed to. Across 9 attacker-subject pairings (Claude Opus 4.7, Qwen3.5-397B, Grok 4.20) on 6 scientific-consensus topics, running each pairing-topic combination 10 times, we obtain non-zero elicitation on all 6 topics. Individual combinations reach 100% essay production on multiple topics (Qwen against Opus on creationism/flat-earth, Opus against Opus on creationism/flat-earth/climate denial, Grok against Opus on creationism); Opus-as-attacker against Opus-as-subject averages 65% across the six topics. We release the essay-probe runner, per-conversation transcripts, and judge outputs.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: