次回の更新記事:AIコーディングエージェントのコスト構造を読み解く(公開予定日:2026年05月26日)
AIDB Daily Papers

LLMが生成する攻撃コードの多様性を測る:無限の変異エンジンか?

原題: The Infinite Mutation Engine? Measuring Polymorphism in LLM-Generated Offensive Code
著者: Gabriel Hortea, Juan Tapiador
公開日: 2026-05-05 | 分野: LLM セキュリティ AI マルウェア cs.CR 生成AI

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • LLMを用いて、機能要件のみ、または過去の生成履歴を考慮して、構造的に多様だが機能的に同一のマルウェアペイロードを生成した。
  • LLMは、明示的に多様性を求めなくても構造的な多様性を生み出し、さらに指示することでその多様性を増幅できることを発見した。
  • この研究は、LLMが低コストで多様なマルウェアペイロードを生成し、シグネチャベースの検出を回避する能力を持つことを実証した。

Abstract

Malware authors have traditionally relied on polymorphic techniques to produce variants in the same malware family, complicating signature-based detection. Integrating generative AI into offensive toolchains enables attackers to synthesize structurally diverse payloads with identical behavior, raising the question of how much polymorphism LLMs provide. Recent work has assumed that LLMs can produce sufficiently polymorphic payloads, leaving unquantified the variation that emerges when an attacker repeatedly builds the same payload, or explicitly instructs the model to avoid prior implementations. In this work, we measure the polymorphic capacity of a commercial model (Claude Opus 4.6) as an automated malware generator. We build a dual-agent, four-stage pipeline that generates, tests, and refines a data-exfiltration payload comprising file traversal, encryption, exfiltration, and integration. We produce payloads in two settings: using prompts that specify only functional requirements, and using prompts that inject a structured history of prior outcomes to force divergence. We measure pairwise distances along structural (AST) and semantic (embedding) axes, finding that when polymorphism is not explicitly required, structural distances are high while semantic distances remain low; i.e., implementations diverge widely without changing high-level behavior. Explicit prompting substantially amplifies this structural diversity while preserving correctness, at the cost of roughly 5 times more tokens but only a small increase in LLM calls (from $4.2$ to $4.5$ per payload, with effective API costs of $0.41 and $0.73). These results show that a single commercial LLM can cheaply generate large populations of behaviorally equivalent yet structurally diverse payloads, facilitating the evasion of signature-based detection rules and similarity-based clustering.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事