科学論文の査読は、提出数の急増と査読者の過重労働により大きな負担となっています。また、場合によっては欠陥のある論文が人間の査読を通過する問題も存在します。そこでカーネギーメロン大の研究者らは、大規模言語モデル(GPT-4)を用いて、科学論文の査読を補助する可能性を探求しました。その結果は驚くべきものでした。
参照論文情報
- タイトル:ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing
- 著者:Ryan Liu, Nihar B. Shah
- URL:https://doi.org/10.48550/arXiv.2306.00622
関連研究
大規模言語モデルGPT-4、日本の医師国家試験に合格 国際研究チームが論文報告
ChatGPTで「論文から非常に正確なデータ抽出」ができるとの報告
AIの目は鋭い?エラーの特定能力について
科学論文の査読は、複雑な内容を理解し、エラーや不一致を見つけ出すという難しいタスクです。そこで、カーネギーメロン大の研究者らは、このタスクをAIに任せることができるかどうかを試みました。
具体的には、13のコンピュータサイエンスの論文に意図的にエラーを挿入し、そのエラーをGPT-4が見つけられるかどうかをテストしました。このエラーは、データの不一致や論理的な飛躍、引用の誤りなど、実際の査読プロセスで見つけるべきものを模しています。
結果としては、GPT-4は、挿入されたエラーのうち約半数に相当する7つを見つけ出すことができました。これは、AIが人間の査読者を補助し、エラーを見つける可能性を示しています。
全てのエラーを見つけ出すことはできないため、AIがまだ完全に人間の査読者を置き換えることはできないのが現時点での正しい理解です。しかし、その補助的な役割としては、十分な可能性を秘めていると言えます。
AIの目は細かい?チェックリストの検証能力について
科学論文は、その構成や内容に一定の基準が求められます。たとえば、適切な方法論の説明、結果の詳細な報告、適切な引用などが必要とされます。これらの要素が欠けていると、論文の信頼性や価値が損なわれる可能性があります。
そこで、研究者らはGPT-4に、これらの基準を満たしているかをチェックするタスクを行わせました。具体的には、15の科学論文が必要な要素を全て含んでいるかを確認するというものです。これは、AIが論文の全体的な品質を評価する能力をテストするためのものです。
そして、その結果は驚くべきものでした。GPT-4は、全体の86.6%の精度で要素を正確にチェックすることができました。これは、AIが論文の品質を保証するための一助となる可能性を示しています。
しかし、これもまた完全ではありません。一部の要素を見落とす可能性があるため、人間の査読者の役割は依然として重要です。しかし、AIがこのような基本的なチェックを担当することで、人間の査読者はより深い内容に焦点を当てることができるかもしれません。
チェックリストの内訳
なお、論文を評価する際のチェックリストは全部で16項目でした。以下にその内訳を示します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。