次回の更新記事:GPT-5.2、Gemini 3 Pro、Grok 4.1…最新6モデルの安全…(公開予定日:2026年02月04日)
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

LLMにおける、長いコンテキストから欲しい情報を見つけ出す「needle-in-a-haystack(干し草の中の針)」テスト結果とプロンプト例

2024.04.22
深堀り解説

LLMがプロンプト内の情報をどの程度正確に抽出できるかを評価した研究が報告されています。VMwareの研究者らによる実験の結果、モデルの情報抽出能力はプロンプトに大きく依存することが明らかになりました。

参照論文情報

  • タイトル:LLM In-Context Recall is Prompt Dependent
  • 著者:Daniel Machlab, Rick Battle
  • 所属:VMware NLP Lab

背景

LLMの性能を適切に評価することが課題となっています。モデルの長所や短所、最適な適用領域を見極めるためには、綿密な評価が不可欠であるためです。

LLMの性能評価において特に重要なのが、「与えられたコンテキスト(プロンプト)に含まれる情報をどの程度正確に取り出せるか」という点です。文脈の詳細をうまく活用できるかどうかに直結するため、実用上の有効性と信頼性に大きく影響します。つまり、LLMをより効果的に活用するための指針となるのです。

そこで研究者らは、needle-in-a-haystack(干し草の中の針)と呼ばれる手法を用いて、様々なLLMの情報抽出能力を分析しました。特定の事実(needle)を大量のテキスト(haystack)の中に埋め込み、それをモデルに取り出させます。haystackの長さやneedleの位置を変えながら、各モデルの性能を評価することで、パフォーマンスのパターンを特定できるという考えです。

プレミアム会員限定コンテンツです

閲覧には、アカウント作成後の決済が必要です。

  • 全記事・論文コンテンツを無制限で閲覧可能
  • 平日毎日更新、専門家による最新リサーチを配信
  • 新着論文データベース(日本語含む便利な検索ツール)
  • 短信ライブラリの高度な機能

記事検索

年/月/日
年/月/日

関連記事