社内に溜まった問い合わせログやSNSの投稿を、LLMで仕分けしたい。ありそうな話です。やり方もだいたい決まっています。テキストを1つ送って、ラベルを1つ返してもらう。これを件数ぶん繰り返す。普段の感覚なら、何の引っかかりもありません。
ただ、対象が10万件を超えたあたりから景色が変わります。同じ命令文を10万回送り直すことになり、月末の請求書を見て「あれ、桁が一つ多くないか」と固まる。試算をやり直して、プロジェクトの規模を縮めるか迷い始める。よくある光景です。

そこで、誰でも一度は思いつく節約案があります。1回のプロンプトに何件かまとめて入れて、ついでに「関連性」「トピック」「感情」みたいなラベルを一気に判定させてしまう。命令文を毎回繰り返さなくて済むぶん、安くなるはずです。
ただ、ここで踏みとどまる人が多いのも事実です。まとめて投げたら精度が崩れるんじゃないか、長いプロンプトをLLMがちゃんとさばけるのか、心配になります。研究の世界でも、この素朴な疑問にちゃんと答えた人は、これまでほとんどいませんでした。
このあたりを真面目に検証した研究を紹介します。8つの主要LLMを動かして、まとめ処理で精度がどう変わるかを丁寧に記録したものです。本記事では、この検証から見えてきた「どこまで詰め込んでも大丈夫か」の境目と、現場のパイプラインに持ち込める設定の目安を考察します。