GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表

Googleは、非構造化文書（例えばレシートなど）から高精度にテキストを抽出するOCR（Optical Character Recognition）技術『LMDX（Language Model-based Document Information Extraction and Localization）』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。

参照論文情報

タイトル：LMDX: Language Model-based Document Information Extraction and Localization

著者：Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Jiaqi Mu, Hao Zhang, Nan Hua

所属：Google、カリフォルニア大学

URL：https://doi.org/10.48550/arXiv.2309.10952

https://twitter.com/ai_database/status/1705550344410042565

関連研究

OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化

数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』

従来の課題と背景

文脈の考慮が不十分

従来のOCR技術は、非構造化や半構造化の文書からテキストを抽出する際に、文脈の考慮が不十分でした。テキスト認識と解析が別々のステージで行われていたため、文脈とレイアウトの統合が困難でした。

レイアウトの柔軟性に欠ける

さらに、従来の方法では多様なレイアウトに対応する能力が限られていました。特に、請求書や税務書類などの半構造化形式の文書においては、テンプレートが多様であり、その柔軟性に対応するのが難しかったです。

データ効率の低さ

また、多くの文書パーサーは非常に少量のデータで構築されていました。これは、注釈リソースが限られている一方で、文書の種類が無限であるため、データ効率が非常に低いという問題がありました。

BardとGoogleサービス群の連携

GoogleのBardは、最新のアップデートでさらに多くの機能を追加しました。BardはGoogleの各種アプリとサービスと連携することが可能になり、GmailやGoogle Driveなどから情報を取得することができます。

BardがGoogle driveやGmailなどのサービス群と強力に連携するためには、画像ベースの非構造化・半構造化ドキュメントを理解する能力が求められています。なぜなら、個人のGoogle driveやGmailには非構造化・半構造化ドキュメントが大量に保存されている場合があるからです。

GoogleのBardは非構造化・半構造化データからの情報抽出においては、上述の課題によりその能力は制限されていました。

『LMDX』のスキーム

Googleの研究者らが開発した『LMDX』は、非構造化文書からの情報抽出を高度に行うOCRフレームワークです。このフレームワークは、以下の5つの主要なステップから構成されています。

OCRステップ

Chunkingステップ

Prompt Generationステップ

LLM Inferenceステップ

Decodingステップ

OCRステップ

このステップでは、画像やPDFから文字情報を光学的に読み取ります。このプロセスは、文書内のテキストをデジタル形式に変換する基礎となるステップです。

Chunkingステップ

OCRで検出された文字情報は、このステップで単語や文章に「チャンキング」（区切り）されます。これにより、次のステップでLLMによる解析が容易になります。

Prompt Generationステップ

チャンキングされたテキストをもとに、LLMに問い合わせるための「プロンプト」が生成されます。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

LLMの出力から誤り（ハルシネーション）を減らす新手法『CoVe（Chain-of-Verification）』と実行プロンプト

GPT-4などのLLMに「自らの論理的な整合性をチェック」させるフレームワーク『LogiCoT』と実行プロンプト

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。