次回の更新記事:LLMを利用した「自動データクリーニング」方法(公開予定日:2024年12月13日)

RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる 最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究

   

本記事では、Microsoftの研究者たちが行った、LLMを外部情報で強化する必要がある質問に関する調査結果を紹介します。研究者たちは、ユーザーからの質問を4つの難易度に分け、それぞれの難易度に合った解決方法を提案しています。

また、外部情報をモデルに取り込む3つの主な方法についても説明し、それぞれの特徴を明らかにしています。

【告知】AIDB HRの人材側登録者全員に対し、業界研究の手間を削減できるように「AI事業を行う企業リスト」を配布します。無料登録後すぐに閲覧とダウンロードが可能です。▼



参照論文情報

  • タイトル:Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely
  • 著者:Siyun Zhao, Yuqing Yang, Zilong Wang, Zhiyuan He, Luna K. Qiu, Lili Qiu
  • 研究機関:Microsoft Research Asia

背景

LLMをそのまま使うだけでは、特定の分野や最新の情報に対応することが難しい場合があります。

そこで登場したのが、外部データを活用してLLMの能力を強化する手法です。外部データを活用すると、根拠のない情報を生成してしまう「ハルシネーション」と呼ばれる問題も減らすことができます。

外部データを活用する手法には、主に2つの方法があります。1つは「検索拡張生成(RAG)」で、質問に応じて関連する情報を検索し、それをLLMに与えて回答を生成します。もう1つは「ファインチューニング」と呼ばれる方法で、特定の分野のデータを使ってLLMを追加学習させます。

どちらの手法も非常に効果的ですが、実際に使いこなすのは簡単ではありません。例えば、法律や医療、製造業など、専門性の高い分野で使う場合、適切なデータの選び方や、LLMの推論能力を最大限に引き出す方法など、さまざまな課題があります。

また、質問の種類によっても最適な対処法が異なります。単純な事実を尋ねる質問もあれば、複雑な推論を必要とする質問もあります。それぞれの質問タイプに応じて、適切なデータの選び方や、LLMの使い方を変える必要があります。

このような背景から、Microsoftの研究グループはクエリ(質問)タイプを体系的に整理し、より効果的に対応するための研究を行いました。

以下で詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP