AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,111件) 短信(808件) 🔒 論文(55,140件) 🔒

表とテキストを両方含むドキュメントからLLMで上手に情報抽出を行う手法

2024.03.122025.03.08

テキストと表の両方を含むハイブリッドな文書からLLMで情報を抽出する能力についてはまだ十分に研究されていません。そこで研究者らは、分割・再結合ベースの方法論を提案しています。実験により、抽出の精度が格段に上昇することを明らかにしました。

参照論文情報

タイトル：Enabling and Analyzing How to Efficiently Extract Information from Hybrid Long Documents with LLMs

機関：Peking University, Microsoft, Institute of Software Chinese Academy of Sciences, University of Technology Sydney

著者：Chongjian Yue, Xinrun Xu, Xiaojun Ma, Lun Du, Hengyu Liu, Zhiming Ding, Yanbing Jiang, Shi Han, Dongmei Zhang

背景

LLMは、テキストデータの理解と処理、およびと表形式データの理解と処理において優れた性能を示しています。しかし、それらを組み合わせたハイブリッドドキュメントの処理については、まだ不十分です。

一方で、世の中の資料は表とテキストを同時に含む資料が非常に多くあります。

またハイブリッドドキュメントは多くの場合とても長い文書であり、LLMのトークン制限を大幅に超えています。

そこで今回研究者らは、LLMがハイブリッドかつ長文の文書を処理できるようにするために、分割・再結合ベースのフレームワーク『SiReF』を開発し、ハイブリッド長文文書からの情報抽出に関する実験を行いました。

さらに実験のために金融レポートデータセットも構築しました。

以下では、手法の詳細に触れていきます。

プレミアム会員限定コンテンツです

無料会員でもできること

プレミアム会員の特典

ログイン