コンピュータビジョンの分野は、ディープラーニングの登場と大規模データセットによって大きく進歩してきました。一例としてImageNetのような画像認識のブレークスルーは、視覚タスクの自動化と新しいアプリケーションの開発を加速してきました。
一方、AI分野全体における大きな動きとして、GPT-4やLLaMAのようなLLMが、膨大な言語データを学習することで、言語タスクにおいて高度な理解と生成能力を獲得してきました。なお、広く使用されているLLMはトランスフォーマーアーキテクチャを使用して文脈を考慮した情報処理を行なっています。
そしてLLMのアーキテクチャを改造する形で、膨大なテキストデータに基づく言語処理能力と、膨大な視覚データによる訓練をあわせて、GPT-4VやLLaVAのような大規模視覚言語モデルが登場してきたのが直近の流れです。
しかし研究者らは、もともと視覚自体は言語に依存しない直感的なものだと考えました。そこで、言語データに頼らずに視覚データから学習する大規模モデルの可能性を模索し始めました。
そして従来の学習手法に代わる新手法の可能性が浮上し、言語データを使用せずに視覚タスクを処理する能力を持つLVMの構築が行われました。