LLMにおけるRAG(外部データを取り込ませる)システムを構築する際には、データベースに「無関係な」文書を混ぜたほうが検索精度が上がる可能性が示唆されています。
これまでになかった視点だと述べられています。
“The Power of Noise: Redefining Retrieval for RAG Systems”より
■なぜそんなことが起こるのか
1. 関連性が高い文書ばかりだと過剰適合が起こる
2. 無関係情報をフィルタリングする能力が上がる
■実験と結果
1. Llama 2, Falcon, Phi-2, MPTそれぞれの7Bを使用
2. 様々な文書タイプを含むデータセットで実験
3. ランダムな文書の追加は精度を向上させた
4. 一方、関連文書の追加は精度を低下させた
■関連文書が多くなりすぎることのデメリット
1. 情報が溢れモデルの注意が分散されてしまう
2. 「関連するが不正確な可能性がある情報」を適切に評価することが難しくなってくる
なお、今回得られた知見を実際のアプリケーションに活かす際には、文書の位置と数を工夫する必要があるとのことです。