最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる 最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究

2024.09.27
深堀り解説

本記事では、Microsoftの研究者たちが行った、LLMを外部情報で強化する必要がある質問に関する調査結果を紹介します。研究者たちは、ユーザーからの質問を4つの難易度に分け、それぞれの難易度に合った解決方法を提案しています。

また、外部情報をモデルに取り込む3つの主な方法についても説明し、それぞれの特徴を明らかにしています。

参照論文情報

  • タイトル:Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely
  • 著者:Siyun Zhao, Yuqing Yang, Zilong Wang, Zhiyuan He, Luna K. Qiu, Lili Qiu
  • 研究機関:Microsoft Research Asia

背景

LLMをそのまま使うだけでは、特定の分野や最新の情報に対応することが難しい場合があります。

そこで登場したのが、外部データを活用してLLMの能力を強化する手法です。外部データを活用すると、根拠のない情報を生成してしまう「ハルシネーション」と呼ばれる問題も減らすことができます。

外部データを活用する手法には、主に2つの方法があります。1つは「検索拡張生成(RAG)」で、質問に応じて関連する情報を検索し、それをLLMに与えて回答を生成します。もう1つは「ファインチューニング」と呼ばれる方法で、特定の分野のデータを使ってLLMを追加学習させます。

どちらの手法も非常に効果的ですが、実際に使いこなすのは簡単ではありません。例えば、法律や医療、製造業など、専門性の高い分野で使う場合、適切なデータの選び方や、LLMの推論能力を最大限に引き出す方法など、さまざまな課題があります。

また、質問の種類によっても最適な対処法が異なります。単純な事実を尋ねる質問もあれば、複雑な推論を必要とする質問もあります。それぞれの質問タイプに応じて、適切なデータの選び方や、LLMの使い方を変える必要があります。

このような背景から、Microsoftの研究グループはクエリ(質問)タイプを体系的に整理し、より効果的に対応するための研究を行いました。

以下で詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事