
契約書や技術マニュアルをAIに読み込ませて、自然文で質問できる仕組みを作ったのに、なぜか答えがズレている。欲しい箇所の一歩手前が返ってきたり、前後の文脈が切れて意味が通らなかったり。そんな経験に覚えのある人は少なくないはずです。
こうしたズレの多くは、モデルの性能よりも「文書を切る工程」で起きています。長い文書は、そのままではAIに渡せません。一定の大きさに分けてから検索対象にするのが普通で、この切り分け作業を「チャンク分割」と呼びます。ところが、ここの切り方しだいで、検索の当たり外れが大きく変わってきます。
ある研究グループが、契約書・金融レポート・スキャン文書・原子力プラントの技術資料など、実際の業務文書を使って、切り方の違いで結果がどう変わるかを比べました。見えてきたのは、文書の構造を無視した切り方では、どれだけ周辺のモデルを強化しても取りこぼしが減らない、という構図です。
本記事では、業務文書RAGで精度が頭打ちになる原因と、それを解くためのチャンク設計の考え方を紹介します。