次回の更新記事:RAGにおけるチャンキング戦略をおさらい どの戦略を…(公開予定日:2026年02月27日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

LLMにおける、長いコンテキストから欲しい情報を見つけ出す「needle-in-a-haystack(干し草の中の針)」テスト結果とプロンプト例

2024.04.22
深堀り解説

LLMがプロンプト内の情報をどの程度正確に抽出できるかを評価した研究が報告されています。VMwareの研究者らによる実験の結果、モデルの情報抽出能力はプロンプトに大きく依存することが明らかになりました。

参照論文情報

  • タイトル:LLM In-Context Recall is Prompt Dependent
  • 著者:Daniel Machlab, Rick Battle
  • 所属:VMware NLP Lab

背景

LLMの性能を適切に評価することが課題となっています。モデルの長所や短所、最適な適用領域を見極めるためには、綿密な評価が不可欠であるためです。

LLMの性能評価において特に重要なのが、「与えられたコンテキスト(プロンプト)に含まれる情報をどの程度正確に取り出せるか」という点です。文脈の詳細をうまく活用できるかどうかに直結するため、実用上の有効性と信頼性に大きく影響します。つまり、LLMをより効果的に活用するための指針となるのです。

そこで研究者らは、needle-in-a-haystack(干し草の中の針)と呼ばれる手法を用いて、様々なLLMの情報抽出能力を分析しました。特定の事実(needle)を大量のテキスト(haystack)の中に埋め込み、それをモデルに取り出させます。haystackの長さやneedleの位置を変えながら、各モデルの性能を評価することで、パフォーマンスのパターンを特定できるという考えです。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

記事検索

年/月/日
年/月/日

関連記事