次回の更新記事:今週の注目AI論文リスト(論文公開日2026/5/24~5/30…(公開予定日:2026年05月30日)
AIDB Daily Papers

画像内テキスト翻訳システムの性能比較:モジュール型、マルチモーダルLLM、End-to-Endモデル

原題: Comparative Evaluation of Machine Translation Systems on Images with Text
著者: Blai Puchol, Sergio Gómez González, Miguel Domingo, Francisco Casacuberta
公開日: 2026-05-28 | 分野: LLM コンピュータビジョン 機械翻訳 自然言語処理 MLLM cs.CL

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 画像内のテキスト翻訳タスクにおいて、OCRとLLMを組み合わせたモジュール型、マルチモーダルLLM、End-to-Endモデルの3つのアプローチを比較評価した。
  • マルチモーダルLLMは、画像とテキストを統合的に処理する能力により、最も柔軟で文脈理解に優れた性能を示した。
  • 実験の結果、モジュール型システムはEnd-to-Endモデルを上回り、マルチモーダルLLMが全体として最高の性能を達成した。

Abstract

This work presents a comparative evaluation of machine translation systems applied to images containing textual information, a task that lies at the intersection of computer vision and natural language processing. The study compares three main paradigms: modular pipelines that separate text detection, recognition, and translation; multi-modal large language models (MLLMs) capable of processing both image and text jointly; and an end-to-end model, Translatotron-V, which directly generates translated images. The modular systems employ state-of-the-art OCR (docTR) combined with multilingual LLMs such as Llama and EuroLLM, while the evaluated MLLMs include different configurations of Gemini 2.5. Experiments were conducted on parallel multilingual datasets covering multiple language pairs, with evaluation based on BLEU, chrF, and TER metrics. The results show that modular pipelines outperform the end-to-end approach, while MLLMs achieve the best overall performance, demonstrating superior flexibility and contextual understanding. These findings underscore the effectiveness of multi-modal reasoning for image-to-text translation and provide a solid foundation for future research on integrating visual understanding and language generation in multilingual settings.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事