レイアウトを考慮したDocLLM

2024.01.05

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。

テキストや画像の情報だけでなくレイアウトが重要な資料に対しても有効とのことです。

“DocLLM: A layout-aware generative language model for multimodal document understanding”

※JPモルガンとは：資産管理や証券を取り扱う金融サービスの会社

■企業ドキュメントについて
– 空間的配置も意味を持つ
– 申込書、請求書、領収書など
– 従来のLLMは読み込みが苦手とされている

■『DocLLM』の特徴
– レイアウトの意味も考える
– バウンディングボックスを使用
（エンコーダーではなく）
– 特殊な事前学習を実施

■実験と結果
– さまざまな形式の文書でテストした
– 正解率やF1スコアで測定した
– テキストだけよりも優れた理解を示した
– 複雑なレイアウトの文書でも効果的だった

なお、コンポーネントの一つであるOCR（光学文字認識）は別の技術であることに注意が必要です。
そのため、精度向上にあたっては最適なOCRエンジンの選択も課題の一つとのことです。

■参照情報

📎 論文を読む（arxiv.org）

こちらもどうぞ