次回の更新記事:AIコーディングエージェントのコスト構造を読み解く(公開予定日:2026年05月26日)
AIDB Daily Papers

LLMは検索情報を鵜呑みにしないか?文脈の確実性への追従性を評価

原題: Can LLMs Take Retrieved Information with a Grain of Salt?
著者: Behzad Shayegh, Mohamed Osama Ahmed, Fred Tung, Leo Feng
公開日: 2026-05-07 | 分野: LLM NLP 評価 信頼 cs.CL 対話システム

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 大規模言語モデル(LLM)が検索情報をどの程度正確に扱えるかを評価した。
  • LLMは、不確かな文脈を前にしても過去の知識を維持できず、確実性を誤解する傾向がある。
  • 対話戦略の改善により、LLMの文脈確実性への追従性が平均25%向上した。

Abstract

Large language models have demonstrated impressive retrieval-augmented capabilities. However, a crucial area remains underexplored: their ability to appropriately adapt responses to the certainty of the retrieved information. It is a limitation with real consequences in high-stakes domains like medicine and finance. We evaluate eight LLMs on their context-certainty obedience, measuring how well they adjust responses to match expressed context certainty. Our analysis reveals systematic limitations: LLMs struggle to recall prior knowledge after observing an uncertain context, misinterpret expressed certainties, and overtrust complex contexts. To address these, we propose an interaction strategy combining prior reminders, certainty recalibration, and context simplification. This approach reduces obedience errors by 25% on average, without modifying model weights, demonstrating the efficacy of interaction design in enhancing LLM reliability. Our contributions include a principled evaluation metric, empirical insights into LLMs' uncertainty handling, and a portable strategy to improve context-certainty obedience across diverse LLMs.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事