ハーバード大学とGoogleの研究者ら、LLMチャットボットを総合的に評価するデータセットの作り方を報告（作成されたデータセットも公開）

本記事では、RAGシステムの性能を総合的に評価するための新しい手法「FRAMES」を紹介します。

RAGシステムは複雑な質問に対して関連情報を検索し、適切な回答を生成する能力が求められます。

今回ハーバード大学とGoogleの研究者らは、事実の正確性、情報検索能力、複雑な推論能力を同時に評価するための考え方を整理しました。また、一般的な内容に対応した質問セットを作成しました。

参照論文情報

タイトル：Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

著者：Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui

背景

多くの企業がLLMを活用したRAG（検索拡張生成）システムの導入を検討しています。大量の社内文書や専門知識を活用し、質問に対して的確な回答を生成する仕組みが求められているためです。

そしてRAGシステムを効果的に運用するには、性能を適切に評価することは不可欠です。
しかしここで課題となるのが、既存の評価方法の多くが単一の側面（例：情報検索の精度や回答の事実性）にのみ焦点を当てていることです。

そこで今回研究チームは新たな評価フレームワーク「FRAMES」を開発しました。以下の特徴を持ちます。

今回研究者らが実際に開発したのは一般的なテーマの質問データセットですが、その設計思想は独自のRAGシステム評価に応用できる可能性が高いです。

以下で本研究を詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。