表とテキストを両方含むドキュメントからLLMで上手に情報抽出を行う手法

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

テキストと表の両方を含むハイブリッドな文書からLLMで情報を抽出する能力についてはまだ十分に研究されていません。そこで研究者らは、分割・再結合ベースの方法論を提案しています。実験により、抽出の精度が格段に上昇することを明らかにしました。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

  • タイトル:Enabling and Analyzing How to Efficiently Extract Information from Hybrid Long Documents with LLMs
  • URL:https://doi.org/10.48550/arXiv.2305.16344
  • 機関:Peking University, Microsoft, Institute of Software Chinese Academy of Sciences, University of Technology Sydney
  • 著者:Chongjian Yue, Xinrun Xu, Xiaojun Ma, Lun Du, Hengyu Liu, Zhiming Ding, Yanbing Jiang, Shi Han, Dongmei Zhang

背景

LLMは、テキストデータの理解と処理、およびと表形式データの理解と処理において優れた性能を示しています。しかし、それらを組み合わせたハイブリッドドキュメントの処理については、まだ不十分です。

一方で、世の中の資料は表とテキストを同時に含む資料が非常に多くあります。

またハイブリッドドキュメントは多くの場合とても長い文書であり、LLMのトークン制限を大幅に超えています。

そこで今回研究者らは、LLMがハイブリッドかつ長文の文書を処理できるようにするために、分割・再結合ベースのフレームワーク『SiReF』を開発し、ハイブリッド長文文書からの情報抽出に関する実験を行いました。

  1. ドキュメントの有用な部分を選択・要約する効果的な方法
  2. LLMがテーブルを理解するための簡単なテーブルシリアル化方法
  3. 本ケースにおいて有用なプロンプトエンジニアリング

さらに実験のために金融レポートデータセットも構築しました。

以下では、手法の詳細に触れていきます。

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP