東京大学の研究者らが、AIが書く論文のクオリティーを測る取り組みを報告しています。
実験の結果、Claude Code系は文章の見栄えや説明のうまさでは強かった一方で、幻覚が出やすかったとのこと。逆にCodex系は幻覚が少ないものの、文章の完成度はClaude Code系より低めでした。
「読みやすくそれっぽく書けること」と「事実を間違えないこと」は両立しにくく、もしかするとトレードオフがあるようです。
手法としては、既存の本物の論文を短い要約や図表などの最小限の材料に圧縮し、それをもとにAIエージェントに元の論文を再構成させています。そして、できあがった論文を元の論文と比べて評価しています。
評価の観点としては、論文としてどれだけそれっぽく必要な内容をきれいに書けているか。そして事実に反することや作り話をどれだけ混ぜてしまうかです。