JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。
テキストや画像の情報だけでなくレイアウトが重要な資料に対しても有効とのことです。
“DocLLM: A layout-aware generative language model for multimodal document understanding”
※JPモルガンとは:資産管理や証券を取り扱う金融サービスの会社
※本記事はAIDBのXポストを転載したものです。
※研究の概要を手早く把握するためのカジュアルな紹介記事です。
関連研究
GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表。Bardを強化する可能性
数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』
Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い
企業ドキュメントについて
- 空間的配置も意味を持つ
- 申込書、請求書、領収書など
- 従来のLLMは読み込みが苦手とされている
『DocLLM』の特徴
- レイアウトの意味も考える
- バウンディングボックスを使用
(エンコーダーではなく) - 特殊な事前学習を実施
実験と結果
なお、コンポーネントの一つであるOCR(光学文字認識)は別の技術であることに注意が必要です。
そのため、精度向上にあたっては最適なOCRエンジンの選択も課題の一つとのことです。
参照情報
DocLLM: A layout-aware generative language model for multimodal document understanding
https://arxiv.org/abs/2401.00908
著者:Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
機関:JPMorgan AI Research
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。