GPT-4査読の有効性検証：人間同等の指摘

2023.10.24

評価・ベンチマーク（モデル評価、ベンチマーク、性能測定）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Nature誌など掲載の約4,800本におよぶ論文を対象に、GPT-4による査読の品質を検証した大規模な実験が行われました。

結果は、人間のレビュワーによる査読と3割以上も同じ論点の提起が行われ「LLMは査読サポートツールとしても有用」といった結論になりました。

スタンフォード大学などの研究者らによる発表です。

@ Weixin Liang et al., “Can large language models provide useful feedback on research papers? A large-scale empirical analysis”

研究業界における基盤の一つに、専門家同士による論文の査読があります。
しかし論文生産数が増え、専門は多角化する中で、査読のクオリティーを維持することは難しくなってきています。
にも関わらず、ますますスピーディーな査読が求められています。

そこで研究者らはLLMを査読に使用することはどれほど実用的なのか調べました。

■実験デザイン
① GPT-4で自動的に査読するための仕組みを作成
② 前提として、科学論文のPDF全体にコメントする
③ Nature誌とICLR（機械学習の国際会議）の論文を対象にGPT-4がレビュー
④ 合計約4,800本の論文を対象に、人間による合計約15,000件のレビューと比較

■実験の結果
① GPT-4と人間のレビュアーとの間で提起されたポイントの平均的な重複率：
Nature誌で30.85%、ICLRで39.23%
② 人間のレビュアー同士での平均的な重複率（Nature誌で28.58%、ICLRで35.25%）と比較しても優れている

■実用性の考察
GPT-4による査読コメントの生成は、❶ 論文PDFを読み込み、❷ フィードバックを出力させるプロンプト指示を与えるといった2ターンの対話（1回のパス）で完結するため、非常に効率的です。

■プロンプト例
ユーザー：上記の論文に対して、以下の観点から科学的レビューを行なってください。
1. サイエンスにおける重要性と新規性
2. 論文誌への受理の可能性
3. 論文誌からの却下の可能性
4. 改善のための提案

■主な結論と注意点
① LLMによるフィードバックは研究者に有益である
② 専門家のフィードバックが得られにくい分野で特に役立つ可能性
③ 査読だけでなく論文を作成する際の初期段階でも有用
④ ただしGPT-4は、特定の側面に焦点を当てる傾向がある
⑤ また深い批評を提供するのは難しい

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ