LLMのRAG（外部知識検索による強化）をまとめた調査報告

LLMのRAG（外部知識検索による強化）についての調査結果が報告されています。

基本フレームワークと各構成要素の詳細、評価、そして今後の発展について言及されており網羅的です。

本記事では、その報告内容を抜粋してお届けします。

参照論文情報

タイトル：Retrieval-Augmented Generation for Large Language Models: A Survey

著者：Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Haofen Wang

所属：Tongji University, Fudan University

URL：https://doi.org/10.48550/arXiv.2312.10997

背景

大規模言語モデル（LLM）は、自然言語処理の多くのタスクで、人間の能力に匹敵するような成果を上げています。しかし、時には不正確な情報を生成したり、特定の分野や専門的な質問への対応力が不足したりするといった課題も浮き彫りになっています。現実世界でのアプリケーションにLLMを適用する際には解決すべきポイントです。

ここで登場するのが、Retrieval-Augmented Generation（RAG）です。RAGは、LLMはより信頼性の高い情報を提供し、新しい知識を扱えるようにするための手法です。また、特定の分野に特化した知識を取り入れることもできるようになります。

RAGはその登場以来、多くの研究者によって探求されてきました。複雑化してきたので、体系的に整理しようというのが今回の試みです。

下図はRAGのさまざまな最適化手法と必要な外部知識との関連を示しています。

RAGとは

Retrieval-Augmented Generation（RAG）は、最新の技術動向の中でも注目される手法です。この手法の特徴は、LLMが自身の学習データだけでなく、外部データベースから得た情報を利用して、より精度の高い回答やテキストを生成するようになることです。つまり、RAGを使用することで、LLMが生成する情報の正確性や関連性が大幅に向上します。

知識が豊富に必要なタスクや、最新の情報を要求するケースにおいてRAGが有用になります。例えば企業内のデータベースなど、さまざまなデータソースと連携することで、情報処理の品質が飛躍的に向上します。従来のLLMの活用法に新たな選択肢を提供し、その活用の幅を広げます。

なお、本調査報告では、RAG関連研究のタイムラインを示す図が以下のように提供されています。

また下記はRAGと細かいチューニングを比較した表です。

知識のアップデート、外部知識の使用、データ処理、モデルのカスタマイズ、解釈可能性、計算リソース、レイテンシー、幻覚の減少、倫理的およびプライバシーの問題が軸になっています。

RAGの基本構造

RAGは、リトリーバー（Retriever）、ジェネレーター（Generator）そして拡張方法（Augmentation）を主なコンポーネントとして構成されています。

それぞれのサブカテゴリと特定の研究領域は以下のように図解されます。

リトリーバー（Retriever）

リトリーバーは、RAGの枠組みにおいて、中心的な役割を果たします。膨大なデータベースからユーザーの問い合わせに最も適した情報を見つけ出し、取り出す作業を担当します。ユーザーからの質問やクエリに最も関連する情報源を探し出すことを目的としています。

核となる機能は、提出されたクエリに関連する情報を特定し、それを取り出すことです。リトリーバーはクエリの意味を解析し、その意味に最も合致するデータをデータベースから探し出します。意味内容に基づく検索（セマンティックサーチ）やキーワードベースの検索技術が用いられ、関連性の高い情報の抽出を行います。

リトリーバーの機能の優れているかどうかは、RAGシステム全体のパフォーマンスに大きな影響を及ぼすと言われています。

ジェネレーター（Generator）

リトリーバーから収集された情報を元に、自然言語での回答やテキストを作り出すのがジェネレーターです。

ジェネレーターの仕事は、検索された結果を基にして、ユーザーの質問や要望に対する具体的な回答を形成することです。ここで重要なのは、入力されたクエリとそれに関連するデータを巧みに組み合わせ、それに基づいてテキストを作り上げる部分です。そのパフォーマンスが、最終的に生成されるテキストの品質や正確性に直接関わってきます。

要するに、ジェネレーターはRAGシステムの出力の品質を決める部分です。