AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(880件) 短信(643件) 🔒 論文(23,059件) 🔒

RAG構築時に知っておくべきLLMの情報源バイアスと対策法

2026.01.142026.01.27

本記事では、RAGにおいてLLMがどの情報源を信頼しやすいのかを調べた研究を紹介します。

RAGは、検索などによって外部から集めた情報をもとに、LLMが回答を生成する仕組みです。ただし、検索結果に含まれる複数の情報が互いに食い違っている場合、LLMがどの情報を採用するのかは明確ではありません。

背景

LLMは、膨大なテキストデータを使って事前に学習されています。ただし、学習時に得た知識だけをもとに回答を生成すると、事実とは異なる内容をもっともらしく出力してしまう場合があります。このような現象は、ハルシネーションと呼ばれています。

この問題を抑える方法として、RAG（検索拡張生成）という手法が広く利用されています。RAGでは、ユーザーの質問に関連する情報を外部のデータベースやウェブから検索し、その結果を文脈としてLLMに与えます。外部情報を参照させることで、回答の正確さを高める狙いがあります。

一方で、RAGにも課題があります。検索によって得られた複数の情報が、互いに食い違っている場合です。たとえば、ある人物の経歴について、情報源Aと情報源Bで内容が異なっているとき、LLMはどちらの記述を選ぶのでしょうか。

これまでの研究から、LLMは質問との関連性が高い情報や、何度も登場する情報を優先しやすいことが分かっています。しかし、情報の内容ではなく、発信者や媒体といった情報源そのものが判断に与える影響については、ほとんど検討されてきませんでした。

そこで本記事では、LLMが情報源の種類に応じてどのような選好を示すのか、さらにその選好がどのような条件で崩れやすいのかを明らかにした研究を紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

プレミアム会員の特典

ログイン

ディスカッションに参加するにはログインが必要です。