RAGで取得すべき情報はLLMごとの「データの有用性」で異なる
LLMの実用性を高めるための手段としてRAGは注目されています。
しかし、RAGにおいてモデルに渡すべき情報は、実は使用するLLMによって異なる可能性があります。
本記事では、この「LLMによって異なる”情報の有用性”」という新しい視点から行われた一連の実験と、そこから見えてきたRAGシステム設計への示唆をご紹介します。

背景
RAGにおいて、データソースから取ってくる情報は、どのような基準で選べば良いのか。通常は、「関連性」、つまり質問のトピックとどれだけ関係があるかという観点で情報を選びます。しかしRAGで重要なのは、その情報が実際にLLMにとって「有用」かどうかという点です。
この「有用性」、実はLLMごとに異なる可能性があります。短絡的に考えると、ある文書が有用であれば、どのLLMに対しても同じように役立つだろうと思えます。しかし、よく考えてみると、LLMはそれぞれ異なる訓練データで学習されており、内部に持っている知識ベースが異なります。あるLLMにとっては新しく重要な情報でも、別のLLMにとってはすでに知っている冗長な情報かもしれません。
また、LLMごとに文章の理解能力や推論能力にも差があります。同じ文書を与えられても、あるLLMは十分に理解して活用できる一方で、別のLLMは内容を正しく解釈できず、かえって誤った回答につながる可能性もあります。こうした違いを考えると、「どの情報が有用か」という判断は、利用するLLMに応じて個別に考える必要があるのではないか、という問題意識が浮かび上がってきます。
そこで、このLLM固有の有用性という新しい視点から、RAGシステムの在り方を見直してみます。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

PAGE TOP