次回の更新記事:今週の注目AI論文リスト(論文公開日2026/5/24~5/30…(公開予定日:2026年05月30日)
AIDB Daily Papers

VaaWIT:Web画像翻訳のための多言語対応LLM適応フレームワーク

原題: VaaWIT: Visual-Aware Adaptation of Large Language Models for Multilingual Web Image Translation
著者: Bo Li, Ronghao Chen, Ningyuan Deng, Huacan Wang, Shaolin Zhu, Lijie Wen
公開日: 2026-05-23 | 分野: LLM コンピュータビジョン 機械学習 自然言語処理 cs.AI cs.CV

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • Web画像内のテキスト翻訳を可能にするVaaWITフレームワークを提案した。
  • 視覚情報と多言語意味特徴を統合するモジュールにより、文字認識の課題を克服した。
  • 実験により、既存手法を凌駕し、商用モデルに匹敵する性能を示した。

Abstract

Translating text embedded in Web images is crucial for improving content accessibility and cross-lingual information retrieval, particularly within social media and e-commerce domains. Although Large Vision-Language Models (LVLMs) have advanced multimodal understanding, applying them to Web image translation remains challenging due to the visual representation gap: standard encoders often prioritize high-level semantics over the fine-grained visual details required for recognizing diverse character morphologies. To address this challenge, we propose VaaWIT, an end-to-end framework that adapts Large Language Models for multilingual Web image translation. The framework introduces two key technical contributions: (1) a Dual-Stream Attention Module (DSAM), which facilitates bidirectional interaction between multilingual semantic features and detailed visual representations, thereby synthesizing unified features robust to textual variations; and (2) a Visual-Aware Adapter (VAA), a parameter-efficient fine-tuning strategy that dynamically injects these fused visual cues into the frozen LLM backbone. This design enables the model to align the visual context with linguistic reasoning effectively while minimizing computational costs. Extensive experiments on eight tasks on three public benchmarks demonstrate that VaaWIT significantly outperforms state-of-the-art (SOTA) open-source baselines and achieves competitive performance against proprietary models. These results validate the efficacy of integrating fine-grained visual perception into LLMs for complex Web content analysis.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事