AIDB Daily Papers
テスト生成によるLLMコード生成におけるプライバシー漏洩の探求
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- LLMが学習データ中の個人情報(PII)を記憶・再現することによるプライバシー漏洩を検出する手法を提案した。
- 手動プロンプトに依存せず、現実的なコード生成シナリオを模倣し、テスト駆動戦略でPII抽出を試みた点が新しい。
- 大規模実験により、既存手法と比較して2.56倍のプライバシー漏洩検出率向上を達成した。
Abstract
The widespread availability of large-scale code datasets has fueled the rapid development of large language models (LLMs) for code-related tasks. These datasets may include sensitive personally identifiable information (PII), which can lead to privacy leakage when LLMs memorize and reproduce it. However, existing privacy-leakage detection methods rely on ad-hoc prompt construction (manually or automatically designed). Therefore, they do not adequately approximate the real-world contexts in which PII appears in code corpora, making it difficult to extract realistic privacy leakage. In this paper, we propose a pipeline that simulates practical privacy-related code generation scenarios and adopts a test-driven strategy to elicit the memorized information from the generated test cases. We further introduce an automatically constructed privacy feature library that replaces manual prompt engineering by providing realistic templates and examples to guide test case generation. Large-scale experiments on 5 widely used LLMs show that our pipeline exposes more confirmed privacy leakage, achieving a 2.56 times increase in detected leakage compared to existing baselines.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: