画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど

本記事では、複数の文書やページから図や表を含む情報を抽出して質問に答えるRAGシステムのアプローチ「M3DOCRAG」を紹介します。

一般的なRAGは、単一ページしか扱えない、または視覚的な情報（表やグラフ）を適切に処理できないという課題があります。しかし、さまざまな現場ではより高度なシステムが求められており、本研究はそのニーズに応える進展と言えます。

参照論文情報

タイトル：M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

背景

文書から情報を抽出して質問に答えるLLMベースのRAGシステムには、現在2つの主な課題があります。

第一に、既存の手法の多くは単一ページの文書しか扱えません。実際のビジネスシーンで必要な情報が複数の文書やページに分散しているため、この点は大きな障壁になります。

第二に、OCRなどのテキスト抽出に依存したRAGアプローチでは、文書内の表やグラフといった視覚的な情報を適切に処理できません。視覚要素は重要な情報を含んでいることが多く、テキストだけを扱う手法では不十分です。

金融、医療、法務をはじめとした、大量の文書を日常的に扱う分野では上記に対応できることはとても重要になってきます。今後様々な分野で、複数の長文文書や複雑なレイアウトを効率的に処理できるシステムへのニーズが高まっていくことが考えられます。

このような課題に対応するため、Bloombergなどの研究者らは、複数文書・複数ページにまたがる文書理解と、テキスト・画像を統合的に処理できるマルチモーダルなRAGシステムの開発に取り組みました。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。