アリババが”大規模ビジョン言語モデル”「Qwen-VL」を公開しました。
○ Jinze Bai et al. Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities
Qwen-VLは以下複数の能力を併せ持ちます。
■画像キャプション
■質問応答
■柔軟な対話
またQwen-VLは、以下の要素で構成されています。
■大規模言語モデル
■視覚エンコーダー(ViT)
■位置認識の視覚言語アダプター
つまり、画像内の特定オブジェクトを理解し、それらの位置関係を特定し、視覚的および言語的に情報を処理するLLMとなります。
強力な性能、多言語対応、複数画像対話、細かい認識と理解が確認されています。
多岐にわたるタスクで既存の大規模視覚言語モデルを上回る性能を示しており、「マルチモーダルAIのフロンティア」と自らを位置付けています。