次回の更新記事:AIコーディングエージェントのコスト構造を読み解く(公開予定日:2026年05月26日)
AIDB Daily Papers

LLMのばらつきがソフトウェア工学の系統的文献レビューにおける証拠スクリーニングに与える影響

原題: Beyond Accuracy: LLM Variability in Evidence Screening for Software Engineering SLRs
著者: Gilberto Sussumu Hida, Danilo Monteiro Ribeiro, Erika Yahata
公開日: 2026-04-29 | 分野: LLM 機械学習 研究 自然言語処理 レビュー cs.AI cs.SE

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 本研究では、12種類のLLMと4種類の古典的モデルを用いて、ソフトウェア工学の系統的文献レビューにおける証拠スクリーニングの性能とばらつきを評価した。
  • LLMは温度ゼロでも大きなばらつきを示し、入力メタデータ(抄録、タイトル、キーワード)の影響も分析したが、古典的モデルに対する一貫した優位性は確認されなかった。
  • LLMの導入は、再現性、コスト、メタデータ可用性などの運用・ガバナンス上の制約を考慮し、パイロット検証とばらつき・入力設定の明示的な報告を伴うべきであると結論づけられた。

Abstract

Context: Study screening in systematic literature reviews is costly, inconsistency-prone, and risk-asymmetric, since false negatives can compromise validity. Despite rapid uptake of Large Language Models (LLMs), there is limited evidence on how such models behave during the study screening phase, particularly regarding the choice of specific LLMs and their comparison with classical models. Objective: To assess LLM performance and variability in screening, quantify the impact of input metadata (abstract, title, keywords), and compare LLMs with classical classifiers under a shared protocol. Methods: We analyzed 12 LLMs from 4 providers (OpenAI, Google Gemini, Anthropic, Llama) and 4 classical models (Logistic Regression, Support Vector Classification, Random Forest, and Naive Bayes) on 2 real Systematic Literature Reviews (SLRs), totaling 518 papers. The experimental design investigated 3 critical dimensions: (i) LLMs performance variability, (ii) the impact of input feature composition (abstract, title, and keywords) on LLM performance, and (iii) the real gain of using LLMs instead of more traditional classification models. Results: LLMs exhibited substantial heterogeneity and residual non-determinism even at temperature zero. Abstract availability was decisive: removing it consistently degraded performance, while adding title and/or keywords to the abstract yielded no robust gains. Compared to classical models, performance differences were not consistent enough to support generalizable LLM superiority. Discussion: LLM adoption should be justified by operational and governance constraints (reproducibility, cost, metadata availability), supported by pilot validation and explicit reporting of variability and input configuration.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事