AIDB Daily Papers
MultiDocFusion:階層型マルチモーダルチャンク処理による長尺な産業ドキュメント向けRAGの強化
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 産業ドキュメントの構造を考慮した、新しいマルチモーダルチャンク処理パイプラインMultiDocFusionを提案しました。
- 従来のRAGでは構造が無視されがちでしたが、本手法は文書構造を階層的に解析し、情報損失を低減します。
- 産業ベンチマークでの実験により、検索精度が8-15%向上、QAスコアが2-3%向上することを確認しました。
Abstract
RAG-based QA has emerged as a powerful method for processing long industrial documents. However, conventional text chunking approaches often neglect complex and long industrial document structures, causing information loss and reduced answer quality. To address this, we introduce MultiDocFusion, a multimodal chunking pipeline that integrates: (i) detection of document regions using vision-based document parsing, (ii) text extraction from these regions via OCR, (iii) reconstruction of document structure into a hierarchical tree using large language model (LLM)-based document section hierarchical parsing (DSHP-LLM), and (iv) construction of hierarchical chunks through DFS-based grouping. Extensive experiments across industrial benchmarks demonstrate that MultiDocFusion improves retrieval precision by 8-15% and ANLS QA scores by 2-3% compared to baselines, emphasizing the critical role of explicitly leveraging document hierarchy for multimodal document-based QA. These significant performance gains underscore the necessity of structure-aware chunking in enhancing the fidelity of RAG-based QA systems.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: