AIDB Daily Papers
PDFからLLMへのサプライチェーンにおける意味的整合性障害
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- PDFからテキストを抽出する隠れたレイヤーが存在し、ユーザーが確認できないため、文書に二つの意味的ビューが存在する「スプリットビューPDF」を可能にする。
- PDFのレンダリングと抽出の境界における仕様上の許容または実装上の許容範囲のギャップを利用し、レンダリングされたページと異なる、または攻撃者が制御したテキストを抽出させる25個の抽出ギャップ(EG)を実証した。
- 評価した16のPDF処理スタックと7つの商用LLMサービスにおいて、各ギャップは少なくとも一つのスタックでレンダリングと抽出の乖離を引き起こし、多くのサービスが複数のギャップに脆弱であることが判明した。
Abstract
Document-to-LLM applications typically read uploaded PDFs by first translating them into text through a hidden extraction layer that users cannot observe or audit. We show that this layer enables split-view PDFs: one document can have two semantic views before model reasoning. By mining specification-permitted or implementation-tolerated representation gaps at the PDF render/extract boundary, we instantiate 25 extraction gaps (EG) in which extractors return attacker-controlled or extractor-dependent text while the rendered page shows benign or different content. The gaps form four families: semantic overrides, hidden semantic injection, reading-order splits, and font-decoding splits, and 14 gaps have no exact path/mechanism-level match in prior PDF-to-LLM attacks. We evaluate these gaps on 16 PDF processing stacks and 7 commercial LLM services. Each gap causes render-extract divergence on at least one stack. Under a gap-level exposure criterion, every evaluated service exposes at least one gap, with 12/25 to 21/25 exposed gaps. Exposure is driven mainly by the ingestion stack -- not model identity alone. We further show that tested safety filters cover only selected hidden-text constructions. To support triage, we develop a static screening scanner whose rules trigger on all 25 benchmark gaps, and discuss dual-view consistency as a longer-term defense direction.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: