本記事では、LLMの長文処理能力について、その進化と直面する課題の発見を紹介します。
現代の最先端モデルは、書籍何冊分もの長さのテキストを一度に処理できるようになりましたが、この能力を検証する適切な評価方法が不足しています。これまでの評価方法ではモデルの真の限界を試すことができず、より詳細な分析が必要とされています。
参照論文情報
- タイトル:Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?
- 著者:Jonathan Roberts, Kai Han, Samuel Albanie
- 所属:University of Cambridge, The University of Hong Kong
背景
LLMは、コンピューティングリソースの拡大やアルゴリズムの改善によって、より長いコンテキストウィンドウ(一度に処理できるテキストデータ量)を持つようになっています。例えば、Gemini 1.5 Proの200万トークンというコンテキストウィンドウは、小説「白鯨」(約30万トークン)を5回近く収められるほどの長さです。
長いコンテキストを活用すれば、より多くの情報をプロンプトからその場で学ぶことができるため、モデルのパフォーマンス向上につながります。また、可能なアプリケーションや達成可能なタスクの範囲が広がります。例えば法律文書の検索、パズルの解決など、さまざまな種類の情報をより良く処理できるようになります。
しかし、そんなに長いコンテキストをどのように効果的に利用すればいいのかは十分に理解されていません。なぜなら、現在の評価方法には、いくつかの重要な欠点があります。
まず、「干し草の中の針」テストを基にした多くのベンチマークは、単純な検索ベースの実験に焦点を当てていますが、最先端モデルはこれらのタスクでほぼ完璧なスコアを達成してしまうため、そこから有用な知見を得ることが難しい状況です。
また、ほとんどの長文コンテキストベンチマークでは、評価対象が10万トークン未満のコンテキストに限定されており、最先端LLMのコンテキスト制限と比べて1桁も小さい範囲に留まっています。
さらに、実際の文書を使用することや、複数のタスクを総合的な指標にまとめる傾向があります。そのため、コンテキスト長の増加に伴うパフォーマンス低下という大まかな傾向はわかったものの、それ以上の具体的な知見は得られていません。
このような背景から、今回ケンブリッジ大学などの研究者らは最先端モデルを対象に長文処理能力の実験を網羅的に行いました。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。