次回の更新記事:AIエージェントで論文内容を再現するワークフロー(…(公開予定日:2026年04月30日)
AIDB Daily Papers

Revise:データ汚染戦略を用いた実践的情報システムにおけるOCRテキスト修正フレームワーク

原題: Revise: A Framework for Revising OCRed text in Practical Information Systems with Data Contamination Strategy
著者: Gyuho Shim, Seongtae Hong, Heuiseok Lim
公開日: 2026-04-09 | 分野: OCR 文書 データ 大規模言語モデル 人工知能 深層学習 構造 自然言語処理 エラー LLM 質問応答 テキスト ドキュメント 情報検索 AI 機械学習 データセット

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • OCRで生じる文字、単語、構造レベルのエラーを体系的に修正するフレームワークReviseを提案。
  • 一般的なOCRエラーの階層的分類と、それを模倣する合成データ生成戦略で効果的な修正モデルを訓練。
  • ReviseはOCR出力を効果的に修正し、文書検索や質問応答の性能を大幅に向上させることが示された。

Abstract

Recent advances in Large Language Models (LLMs) have significantly improved the field of Document AI, demonstrating remarkable performance on document understanding tasks such as question answering. However, existing approaches primarily focus on solving specific tasks, lacking the capability to structurally organize and manage document information. To address this limitation, we propose Revise, a framework that systematically corrects errors introduced by OCR at the character, word, and structural levels. Specifically, Revise employs a comprehensive hierarchical taxonomy of common OCR errors and a synthetic data generation strategy that realistically simulates such errors to train an effective correction model. Experimental results demonstrate that Revise effectively corrects OCR outputs, enabling more structured representation and systematic management of document contents. Consequently, our method significantly enhances downstream performance in document retrieval and question answering tasks, highlighting the potential to overcome the structural management limitations of existing Document AI frameworks.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事