
大量の文章の品質チェックをLLMに任せたい場面が増えています。LLM生成による要約のレビュー、外部から届いた原稿のチェック、蓄積された社内ドキュメントの棚卸し。1本ずつ人が読むには多すぎるテキストを前に、採点をAIに任せる判断は自然な流れです。
ところが、いざ運用してみると不思議なことが起こります。改善のために点数をつけているのに、返ってくるスコアは4点や5点ばかり。たとえば、レビューに流した要約の1本に、原文にないURLと発言者の取り違えが紛れ込んでいたとします。人間が読めば数十秒で気づく誤りです。それでも自動採点は満点。スコアを信じてそのまま公開するわけにはいきません。
そんな中、聞き方を変えるだけでこの状況が大きく変わる、という検証結果が報告されています。しかも採点できる対象は、AIが書いた文章に限りません。本記事では、実際の方法と、それがなぜ機能するのか、そしてどこまで頼れるのかを紹介します。