次回の更新記事:「AIっぽくて白ける」現象の正体(公開予定日:2026年05月01日)
AIDB Daily Papers

LLMを活用したWebアプリケーションの信頼性評価:セキュアコーディングの実践に向けて

原題: Leveraging Large Language Models for Trustworthiness Assessment of Web Applications
著者: Oleksandr Yarotskyi, José D'Abruzzo Pereira, João R. Campos
公開日: 2026-03-24 | 分野: LLM セキュリティ 機械学習 評価 情報 プロンプト 自動化 ウェブ 品質 脆弱性

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • Webアプリケーションの信頼性評価を自動化するため、大規模言語モデル(LLM)を活用する新しい手法を提案しました。
  • セキュアコーディングの実践状況をLLMで検証することで、脆弱性検出や手動評価の限界を克服し、よりスケーラブルな評価を目指します。
  • 実験の結果、構造的な文脈の過剰な追加はノイズとなる一方、ルールに基づいた指示プロンプトが評価の信頼性を向上させることがわかりました。

Abstract

The widespread adoption of web applications has made their security a critical concern and has increased the need for systematic ways to assess whether they can be considered trustworthy. However, "trust" assessment remains an open problem as existing techniques primarily focus on detecting known vulnerabilities or depend on manual evaluation, which limits their scalability; therefore, evaluating adherence to secure coding practices offers a complementary, pragmatic perspective by focusing on observable development behaviors. In practice, the identification and verification of secure coding practices are predominantly performed manually, relying on expert knowledge and code reviews, which is time-consuming, subjective, and difficult to scale. This study presents an empirical methodology to automate the trustworthiness assessment of web applications by leveraging Large Language Models (LLMs) to verify adherence to secure coding practices. We conduct a comparative analysis of prompt engineering techniques across five state-of-the-art LLMs, ranging from baseline zero-shot classification to prompts enriched with semantic definitions, structural context derived from call graphs, and explicit instructional guidance. Furthermore, we propose an extension of a hierarchical Quality Model (QM) based on the Logic Score of Preference (LSP), in which LLM outputs are used to populate the model's quality attributes and compute a holistic trustworthiness score. Experimental results indicate that excessive structural context can introduce noise, whereas rule-based instructional prompting improves assessment reliability. The resulting trustworthiness score allows discriminating between secure and vulnerable implementations, supporting the feasibility of using LLMs for scalable and context-aware trust assessment.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事