AIDB Daily Papers
プロンプトインジェクション攻撃への対抗:動的セパレータ生成によるポリモーフィックプロンプト組立の強化
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、固定されたセパレータプールを使用する既存のプロンプトインジェクション防御策の脆弱性を解消するため、動的なセパレータ生成手法を提案した。
- 提案手法は、タイムスタンプやセッションIDなどを基にリクエストごとにユニークなセパレータペアを生成することで、セパレータ漏洩時の影響範囲を単一リクエストに限定する。
- 実験の結果、動的セパレータ生成により攻撃成功率が大幅に低下し、静的手法におけるセパレータ漏洩による攻撃も完全に排除されることが確認された。
Abstract
Polymorphic Prompt Assembling (PPA) defends LLM agents against prompt injections by randomly selecting separator pairs from a fixed pool to isolate user input from system instructions. Although effective, static pool reuse exposes a blast-radius vulnerability: once a separator leaks, it can be exploited in future requests. We propose a dynamic per-request separator generation using domain-separated SHA-256 digests keyed on the timestamp, session identifier, and cryptographic nonce. Each assembled prompt receives a unique (BEGIN, END) canary pair, thereby limiting leakage exposure to a single request. We evaluated our extension against 16 injection payloads on Llama-3.3-70B-Instruct-Turbo, with cross-model validation on DeepSeek-V4-Flash model. Against the M1 obfuscation payload (leetspeak + urgency), the dynamic mode reduces the Attack Success Rate (ASR) from 0.88 to 0.38, yielding a statistically significant 2.3 x mitigation verified by non-overlapping 95% Wilson confidence intervals. Against format_breakout_salad, static separator leakage (leak_rate = 0.467) is eliminated entirely in the dynamic mode (0.000), confirming the blast-radius reduction in practice. The implementation requires no model fine-tuning, adds 2.7 microseconds prompt-assembly overhead per request, and is backward compatible with the existing PPA SDK.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: