RAGの実用性レベルを上げるために「データソースを構造化する」という考え方

ChatGPTやGemini、Claudeなどが広く使われるようになった今、LLMを社内システムに組み込もうとする動きが活発化しています。しかし、単純にLLMを導入するだけでは、情報の正確性や信頼性の面で課題が残ります。そこで注目されているのがRAGという技術です。しかし実用的なレベルにするにはどうしたらいいでしょうか。

本記事では、まずRAGの基本的な仕組みをおさらいした上で、データソースの「構造化」がどのように実務の課題を解決し得るのかを、深堀りしていきます。

背景

例えば、自社の製品についての質問をLLMに投げかける場合を考えてみましょう。RAGを使わないLLMは、訓練データの中にあった一般的な知識しか使えません。しかしRAGを使うと、まず社内の製品マニュアルや最新の仕様書を検索し、その内容をLLMに渡してから答えを生成させることができます。

ChatGPTやClaudeなどに文書ファイルを添付して回答を生成させる場面を思い出していただけると良いかと思います。ChatGPTやClaudeがそれらのファイルに書かれてある情報を抽出して答えることができますが、あの機能はRAGの一種です。

実際、RAGは現在多くの企業で使われている実用的な技術です。しかし、RAGは完ぺきではありません。

その限界とは何でしょうか。RAGは、基本的に「文章の塊」を検索して持ってきます。例えば、あなたが「この製品の保証期間と修理手続きについて教えて」と質問したとします。RAGシステムは関連しそうな文書の断片をいくつか持ってきますが、それらは構造化されていないバラバラな情報です。保証に関する情報と修理手続きの情報が別々の文書にあったり、情報同士の関係性が明確でなかったりします。また、複雑な質問、例えば「A部門とB部門の過去三年間の業績を比較して、その背景にある市場要因を分析して」といった複数のステップを踏む必要がある質問には対応しづらいのです。

そこで、RAGをもう一段階進化させて使い勝手を良くする工夫が必要になります。

本記事では、最近登場した「新しい方法論」を深堀りし、RAGが企業の実務レベルに耐えられるようになるためのヒントを見出していきます。

まずはRAGの全体的な仕組みとRAGにおける情報検索の理論を振り返っていきます。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

LLMを新しいタスクに順応させる「文脈内学習」における効率的なコンテキストの作り方

長文脈タスクでもLLMの精度を下げないための対策

RAGの実用性レベルを上げるために「データソースを構造化する」という考え方

背景

コンテンツ検索

おすすめポスト

RAGの実用性レベルを上げるために「データソースを構造化する」という考え方

背景

コンテンツ検索

直近1ヶ月で読まれている記事

おすすめポスト