本記事では、LLMが抱えるコンテキストウィンドウの制限を根本的に見直す、新しい推論の考え方を紹介します。
現在のLLMは、一度に扱えるテキストの量に明確な上限があります。さらに、その範囲内であっても、入力が長くなるにつれて精度が下がっていくことが知られています。これが大量の文書を扱う業務や、長い時間にわたって進行するタスクにおいて、大きな障害となっています。
では、LLMが長いプロンプトをそのまま読み込むのではなく、まったく異なるやり方で扱えるとしたらどうでしょうか。

背景
LLMにはコンテキストウィンドウと呼ばれる仕組みがあり、一度の推論で処理できるテキスト量には上限があります。モデルが参照できる情報の範囲を意味しており、現在の最先端モデルでも限界があります。
そして、問題は単に扱える量に上限があることだけではありません。コンテキストウィンドウの範囲内であっても、入力が長くなるにつれて出力の質が徐々に低下していくことが知られています。この現象はコンテキストの腐敗(Context Rot)と呼ばれ、避けることができない課題です。
このような制約は、LLMを長期的なタスクに利用する場面で深刻になります。たとえば、大量の文書をまたいで分析を行ったり、複雑な調査を継続的に進めたりする場合、扱うトークン数が数千万から数億に達することも珍しくありません。
こうした問題への対策として、コンテキスト圧縮と呼ばれる手法が広く用いられています。コンテキストが長くなりすぎた際に内容を要約し、短くまとめる方法です。しかし、この手法には限界もあります。プロンプト内の多くの箇所を細かく参照する必要があるタスクでは、要約の過程で後から重要になる細部が失われてしまう可能性があるため、十分に対応できない場合があります。
そこで本記事では、こうした制約を根本から見直すために提案された、LLMの推論方法に関する新しいアプローチについて、詳しく見ていきます。