次回の更新記事:LLMに「もっと読みやすくして」とリファクタリングを…(公開予定日:2026年03月02日)

RAGにノイズ文書を混ぜて検索精度向上

RAG・検索(検索拡張生成、知識ベース、ベクトル検索)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMにおけるRAG(外部データを取り込ませる)システムを構築する際には、データベースに「無関係な」文書を混ぜたほうが検索精度が上がる可能性が示唆されています。

これまでになかった視点だと述べられています。

“The Power of Noise: Redefining Retrieval for RAG Systems”より

■なぜそんなことが起こるのか
1. 関連性が高い文書ばかりだと過剰適合が起こる
2. 無関係情報をフィルタリングする能力が上がる

■実験と結果
1. Llama 2, Falcon, Phi-2, MPTそれぞれの7Bを使用
2. 様々な文書タイプを含むデータセットで実験
3. ランダムな文書の追加は精度を向上させた
4. 一方、関連文書の追加は精度を低下させた

■関連文書が多くなりすぎることのデメリット
1. 情報が溢れモデルの注意が分散されてしまう
2. 「関連するが不正確な可能性がある情報」を適切に評価することが難しくなってくる

なお、今回得られた知見を実際のアプリケーションに活かす際には、文書の位置と数を工夫する必要があるとのことです。

📄 参照論文

参照情報:

関連記事