RAGにノイズ文書を混ぜて検索精度向上

2024.01.31

RAG・検索（検索拡張生成、知識ベース、ベクトル検索）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMにおけるRAG（外部データを取り込ませる）システムを構築する際には、データベースに「無関係な」文書を混ぜたほうが検索精度が上がる可能性が示唆されています。

これまでになかった視点だと述べられています。

“The Power of Noise: Redefining Retrieval for RAG Systems”より

■なぜそんなことが起こるのか
1. 関連性が高い文書ばかりだと過剰適合が起こる
2. 無関係情報をフィルタリングする能力が上がる

■実験と結果
1. Llama 2, Falcon, Phi-2, MPTそれぞれの7Bを使用
2. 様々な文書タイプを含むデータセットで実験
3. ランダムな文書の追加は精度を向上させた
4. 一方、関連文書の追加は精度を低下させた

■関連文書が多くなりすぎることのデメリット
1. 情報が溢れモデルの注意が分散されてしまう
2. 「関連するが不正確な可能性がある情報」を適切に評価することが難しくなってくる

なお、今回得られた知見を実際のアプリケーションに活かす際には、文書の位置と数を工夫する必要があるとのことです。

参照情報：

📎 論文を読む（doi.org）

こちらもどうぞ