LLMにおける、長いコンテキストから欲しい情報を見つけ出す「needle-in-a-haystack(干し草の中の針)」テスト結果とプロンプト例

   

LLMがプロンプト内の情報をどの程度正確に抽出できるかを評価した研究が報告されています。VMwareの研究者らによる実験の結果、モデルの情報抽出能力はプロンプトに大きく依存することが明らかになりました。

重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。



参照論文情報

  • タイトル:LLM In-Context Recall is Prompt Dependent
  • 著者:Daniel Machlab, Rick Battle
  • 所属:VMware NLP Lab

背景

LLMの性能を適切に評価することが課題となっています。モデルの長所や短所、最適な適用領域を見極めるためには、綿密な評価が不可欠であるためです。

LLMの性能評価において特に重要なのが、「与えられたコンテキスト(プロンプト)に含まれる情報をどの程度正確に取り出せるか」という点です。文脈の詳細をうまく活用できるかどうかに直結するため、実用上の有効性と信頼性に大きく影響します。つまり、LLMをより効果的に活用するための指針となるのです。

そこで研究者らは、needle-in-a-haystack(干し草の中の針)と呼ばれる手法を用いて、様々なLLMの情報抽出能力を分析しました。特定の事実(needle)を大量のテキスト(haystack)の中に埋め込み、それをモデルに取り出させます。haystackの長さやneedleの位置を変えながら、各モデルの性能を評価することで、パフォーマンスのパターンを特定できるという考えです。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP