次回の更新記事:誤解を招きやすいAI用語6選、技術語なのに揺れる意味(公開予定日:2026年04月30日)
AIDB Daily Papers

LLM生成コードのセキュリティ強化:検出・修復・検証による多言語実証研究

原題: Detect Repair Verify for Securing LLM Generated Code: A Multi-Language Empirical Study
著者: Cheng Cheng
公開日: 2026-03-01 | 分野: LLM 安全性 データセット ベンチマーク セキュリティ 機械学習 AI

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • LLMを活用して生成されたコードのセキュリティを向上させるための、検出・修復・検証(DRV)ループの有効性を検証した。
  • プロジェクトレベルのベンチマークデータセットを新たに導入し、DRVパイプライン全体の有効性を評価することで、既存研究の課題を克服した。
  • テストに基づいた検証により、セキュアで正確なコード生成の実現度を測定し、修復後のリグレッションや新たな脆弱性の発生を分析した。

Abstract

Large language models are increasingly used to produce runnable software. In practice, security is often addressed through a Detect--Repair--Verify (DRV) loop that detects issues, applies fixes, and verifies the result. This work studies such a workflow for project-level artifacts and addresses four gaps: L1, the lack of project-level benchmarks with executable function and security tests; L2, limited evidence on pipeline-level effectiveness beyond studying detection or repair alone; L3, unclear reliability of detection reports as repair guidance; and L4, uncertain repair trustworthiness and side effects under verification. A new benchmark datasetfootnote{https://github.com/Hahappyppy2024/EmpricalVDR} is introduced, consisting of runnable web-application projects paired with functional tests and targeted security tests, and supporting three prompt granularities at the project, requirement, and function level. The evaluation compares generation-only, single-pass DRV, and bounded iterative DRV variants under comparable budget constraints. Outcomes are measured by secure and correct yield using test-grounded verification, and intermediate artifacts are analyzed to assess report actionability and post-repair failure modes such as regressions, semantic drift, and newly introduced security issues.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事