ロングコンテキストはRAGもText to SQLも解決するか Googleがケーススタディを実施

ロングコンテキストはRAGもText to SQLも解決するか　Googleがケーススタディを実施

ロングコンテキストのLLMは、単体でも多様なタスクをこなせる可能性が示唆されています。DeepMindの研究チームは、100万トークンという膨大なコンテキストを一度に処理するLLMが、情報検索や質問応答、さらにはデータベース操作までをこなせるかどうかを検証しました。

参照論文情報

タイトル：Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

著者：Jinhyuk Lee, Anthony Chen, Zhuyun Dai, Dheeru Dua, Devendra Singh Sachan, Michael Boratko, Yi Luan, Sébastien M. R. Arnold, Vincent Perot, Siddharth Dalmia, Hexiang Hu, Xudong Lin, Panupong Pasupat, Aida Amini, Jeremy R. Cole, Sebastian Riedel, Iftekhar Naim, Ming-Wei Chang, Kelvin Guu

所属：Google DeepMind

背景

LLMのコンテキスト長が大幅に拡大し、これまで外部ツールに頼っていたタスクをLLMが直接処理できるようになってきています。例えば、従来は膨大な文書から情報を抽出するために専用の検索エンジンが必要だった情報検索や質問応答システムも、長文コンテキストを扱えるLLMなら文書全体を一度に処理できる可能性があります。また、専門的なSQLを使わずに、自然言語でデータベースを操作できるようになるかもしれません。

長いコンテキストを扱えるロングコンテキストLLMには、使いやすさ向上、エラーの減少、柔軟性の向上など、多くの利点が期待されています。

しかしどのような可能性が現実的なのか、長文コンテキストを扱えるLLMの性能を厳密に評価する必要があります。そこで今回、最大100万トークンのコンテキストを扱えるベンチマークLOFTが開発されました。情報検索、質問応答、SQL風の推論など、実用的なタスクを含みます。

そしてLOFTを用いた評価により、長文コンテキストを扱えるLLMの可能性と限界が明らかになってきました。例えば、情報検索ではLLMが専用システムに匹敵する性能を示す一方で、複雑な推論タスクではまだ課題があることがわかりました。

以下で詳しく紹介します。