次回の更新記事:誤解を招きやすいAI用語6選、技術語なのに揺れる意味(公開予定日:2026年04月30日)
AIDB Daily Papers

SWE-PRBench:AIコードレビューの品質をプルリクエストのフィードバックと比較評価

原題: SWE-PRBench: Benchmarking AI Code Review Quality Against Pull Request Feedback
著者: Deepak Kumar
公開日: 2026-03-27 | 分野: LLM ベンチマーク AI ソフトウェア オープンソース 評価 コード プログラミング テスト GitHub 自然言語処理 論文 レビュー

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • AIコードレビューの品質を評価するため、人手でアノテーションされた350件のプルリクエストのベンチマークSWE-PRBenchを導入した。
  • LLMを審査員として評価した結果、最先端モデルでも人間の専門家が指摘する問題の15〜31%しか検出できず、改善の余地がある。
  • コンテキストを段階的に与える実験で、フルコンテキストよりも構造化された要約付きの差分の方が性能が良いことが判明した。

Abstract

We introduce SWE-PRBench, a benchmark of 350 pull requests with human-annotated ground truth for evaluating AI code review quality. Evaluated against an LLM-as-judge framework validated at kappa=0.75, 8 frontier models detect only 15-31% of human-flagged issues on the diff-only configuration, demonstrating that AI code review remains far below human expert performance despite strong results on code generation benchmarks. Pull requests are drawn from active open-source repositories, filtered from 700 candidates using a Repository Quality Score, and evaluated under three frozen context configurations: diff only (config_A), diff with file content (config_B), and full context (config_C), enabling systematic ablation of context provision strategies. All 8 models degrade monotonically from config_A to config_C, even when context is provided via structured semantic layers including AST-extracted function context and import graph resolution. The dominant mechanism is a collapse of Type2_Contextual issue detection at config_B, consistent with attention dilution in long contexts: a structured 2,000-token diff-with-summary prompt outperforms a 2,500-token full-context prompt enriched with execution context, behaviour mapping, and test signatures across all 8 models. The top four models are statistically indistinguishable (mean score 0.147-0.153) while a clear tier gap separates them from the remaining four (mean score <= 0.113). Dataset, contexts, annotations, and evaluation harness are released publicly.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事