最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

RAGの検索データにおける「ノイズ(事実とは異なる情報など)」には有益なノイズと有害なノイズがある

2024.09.05
深堀り解説

本記事では、RAGシステムにおける”ノイズ”の役割を分析した研究を紹介します。研究者らは、RAGシステムにおいて検索されるデータにおけるノイズのタイプを7つに定義して評価しています。結果、ノイズの中にも有益なノイズがあり、LLMの性能向上に寄与する可能性が示されました。

参照論文情報

  • タイトル:Pandora’s Box or Aladdin’s Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
  • 著者:Jinyang Wu, Feihu Che, Chuyuan Zhang, Jianhua Tao, Shuai Zhang, Pengpeng Shao
  • 所属:Tsinghua University, Beijing National Research Center for Information Science and Technology

背景

LLMはさまざまなタスクで優れた力を見せていますが、古い知識に頼りすぎたり、間違った情報を作り出したりすることがあります。これらの課題を解決するため、(ご存じの方も多いと思いますが)RAGという方法が注目されています。RAGは、LLMが答えを出す前に外からの新しい情報を参照する手法です。

しかし、RAGで取得される情報には正確な事実以外にもさまざまなノイズ(事実とは異なる情報やフェイクニュース、古い内容、スペルミスなど)があり、それらノイズがLLMの働きに影響を与える可能性があります。
Web検索によって情報を取得するタイプのRAGだけに限らず、独自のデータベースを構築する場合においてもノイズは同様に発生します。

これまでの研究では、RAGシステムを実際の複雑な場面で使うことで、ノイズの影響や、システムを強くする方法が調べられてきました。しかし以下の点で不十分でした。

  1. 調べたノイズの種類が少なく(だいたい3種類以下)、はっきりとした分け方がなかった
  2. ノイズは悪いものだと決めつけていて、良い影響の可能性があまり考慮されていなかった
  3. 評価のための資料が足らなかった

このままでは現実的なRAG環境(ノイズが含まれうる状況)を検証できているとは言えません。

そこで今回研究者らは、RAGにおけるノイズの種類を新しく7つに定義し直し、検索時のノイズの具体的な影響を詳しく調べました。

以下でアプローチや実験結果の詳細を紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事