包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発

Metaなどの研究者らは、RAGシステムが多様な質問応答タスクにどの程度正確に対応できるかを評価するためのベンチマーク『CRAG』を作りました。
データマイニングや知識発見の分野で毎年開催される有名な国際コンペティションKDD Cup 2024で使用されています。

参照論文情報

タイトル：CRAG — Comprehensive RAG Benchmark

著者：Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong

所属：Meta Reality Labs, FAIR Meta, HKUST, HKUST (GZ)

背景

LLMは事実に基づかない回答を生成してしまうことがある問題が指摘されています。例えばGPT-4を用いた実験では、急速に変化する事実に関する質問の正答率が15%以下であったことが報告されています。また、静的な事実であっても、マイナーな知識に関する質問の正答率は35%以下だったと言います。そのため、幻覚的な回答を行わず、信頼性の高い質問応答システムを構築することが急務となっています。

この問題を解決するアプローチの1つとして、検索拡張生成（RAG：Retrieval-Augmented Generation）が注目を集めています。RAGは、質問に対して外部のソースから関連情報を検索し、その情報を活用して回答を生成する手法です。しかし、RAGにも下記のような課題が残されています。