数式も高精度認識 OCR Nougat登場

2023.09.04

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

論文の画期的なOCR技術『Nougat』をMetaが開発しました。数式や文章がぐにゃぐにゃに曲がった画像であっても、マークアップ言語に高品質で変換します。
新しい論文だけでなく、電子データのない古い書類などの解析にも役立つことが期待されます。

○ Lukas Blecher et al. Nougat: Neural Optical Understanding for Academic Documents

地味で厄介な問題である”論文PDF”のテキスト解析に取り組む際の、新たな相棒が登場しました。

■これまでのPDFのOCR（光学式文字認識）
① 文字や単語を検出するのはある程度得意
② それらの関係性を理解するのは苦手

■Noughtの特徴
① 文字の相対的な位置を正確に認識できる
② 特に数学的な表現を認識し整理することに長けている

■技術的な方法論
① arXiv、PubMed Central、Industry Documents Libraryから収集されたデータで訓練＆実験
② Swin Transformer（画像分野のTransformer）を活用
③ デコーダが埋め込みをトークンのシーケンスに変換
④ エンコーダ-デコーダのアーキテクチャを採用
⑤ 文書イメージを潜在的な埋め込みに変換
⑥ 総パラメータ数は350M

論文の解析に焦点を当てて開発されたツールですが、数式が多用されている技術書や仕様書にも応用が見込まれます。

📄 参照論文

論文タイトル：Nougat: Neural Optical Understanding for Academic Documents

著者: 著者：Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic

📎 論文を読む（arxiv.org）

X（Twitter）で見る

数式も高精度認識 OCR Nougat登場

📄 参照論文

こちらもどうぞ

🔒 今週の注目AI論文リスト（論文公開日2025/6/30～7/4）

🔒 「ChatGPTの1周年を記念して」、オープンソースLLMがChatGPTにどこまで追いついているか体系的調査報告