Natureなどの論文約4,800本でGPT-4による査読能力が検証され、「LLMは査読にも有用」と結論

【お知らせ】AIDB主催のビジネスマッチングイベントを６月下旬ごろ開催予定です！会場を提供いただける可能性がある企業の方はぜひご連絡ください。

---以下、記事本文---

Natureなどの論文約4,800本でGPT-4による査読能力が検証され、「LLMは査読にも有用」と結論

スタンフォード大学などの研究者らによる最新の研究では、Nature誌をはじめとする約4,800本の論文に対して、GPT-4を用いた査読の品質が大規模に検証されました。この研究は、科学的なフィードバックの生成における大規模言語モデル（LLM）の有用性を改めて（あるいは初めて）体系的に評価するものです。

結果からは、「LLMは査読サポートツールとしても有用」という結論が導かれました。また論文の初期段階での推敲においても、LLMのフィードバックが研究者に有益である可能性は高いとされています。

本記事では、研究内容を詳しく見ていきます。

参照論文情報

・タイトル：Can large language models provide useful feedback on research papers? A large-scale empirical analysis
・著者：Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou
・所属：Stanford University, Northwestern University, Cornell University
・URL：https://doi.org/10.48550/arXiv.2310.01783
・GitHub：https://github.com/Weixin-Liang/LLM-scientific-feedback

従来の課題と背景

査読は、研究業界において基盤となるプロセスです。研究の品質は、専門家による厳密な評価を通じて保証されるのが慣習となっています。

査読は非常に時間と労力を要するプロセスであり、一年間で約100Mの研究者時間と$2.5B USドルが費やされています。

一方で、近年、科学的な論文の数は急速に増加しています。例えば、ICLR（機械学習の国際会議）への論文提出数は、2018年の960本から2023年には4,966本へと増加しています。

さらに研究の専門分野が多角化するにつれて、適切な査読者を見つけることがますます困難になっています。

研究が急速に進展する現代においては、査読のスピードも非常に重要です。しかし、上記のような事情から、高品質な査読を速やかに行うことは容易ではありません。

加えて、比較的予算の小規模な研究機関や、資源に限りのある地域での研究者は、高品質なフィードバックを得るのは一層困難です。

本記事の関連研究：AIが科学論文の査読を補助する日は近い？

実験デザイン

GPT-4をベースにした科学的フィードバック生成パイプライン

1. 査読の自動化：GPT-4の活用

研究者らはGPT-4を用いて科学論文の査読を自動化するための仕組みを構築しました。仕組みは、LLMが論文のPDF全体に対してコメントを生成するように設計されています。まず分析過程においては論文のタイトル、要約、図表のキャプション、および本文を解析してプロンプトが構築され、その後GPT-4によって構造化されたコメントが生成されます。

2. 対象となる論文

実験では、Nature誌とICLR（機械学習の国際会議）の論文が対象とされました。合計で約4,800本の論文がこの実験の対象となり、これらの論文に対する人間による約15,000件のレビューとLLM生成コメントとの比較が行われました。

3. フィードバックの構造

GPT-4には、科学的なフィードバックを構造化するように指示が与えられました。次の4つのフィードバックセクションが設定されました。：「重要性と新規性」、「受理の可能性」、「却下の可能性」、「改善の提案」

4. フィードバックの評価

フィードバックの品質を評価するために、研究者らは二段階のコメントマッチングパイプラインを開発しました。まず抽出型テキスト要約を用いてLLMと人間によるフィードバックからコメントのポイントを抽出し、次にセマンティックテキストマッチングを行って、LLMと人間のフィードバック間で共有されるコメントのポイントをマッチさせます。