JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。

テキストや画像の情報だけでなくレイアウトが重要な資料に対しても有効とのことです。

“DocLLM: A layout-aware generative language model for multimodal document understanding”

※JPモルガンとは：資産管理や証券を取り扱う金融サービスの会社

※本記事はAIDBのXポストを転載したものです。

※研究の概要を手早く把握するためのカジュアルな紹介記事です。

企業ドキュメントについて

空間的配置も意味を持つ
申込書、請求書、領収書など
従来のLLMは読み込みが苦手とされている

『DocLLM』の特徴

レイアウトの意味も考える
バウンディングボックスを使用
（エンコーダーではなく）
特殊な事前学習を実施

実験と結果

さまざまな形式の文書でテストした
正解率やF1スコアで測定した
テキストだけよりも優れた理解を示した
複雑なレイアウトの文書でも効果的だった

なお、コンポーネントの一つであるOCR（光学文字認識）は別の技術であることに注意が必要です。
そのため、精度向上にあたっては最適なOCRエンジンの選択も課題の一つとのことです。

参照情報

DocLLM: A layout-aware generative language model for multimodal document understanding
https://arxiv.org/abs/2401.00908
著者：Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
機関：JPMorgan AI Research

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。