オープンソースの画像解析LLM『CogVLM』が開発されました。
画像から抽出された特徴を、LLMが理解できるような形式に加工するためのモジュールも提供されています。
研究と商用の両方で使用でき、デモも公開されています。
@ Weihan Wang et al., “CogVLM: Visual Expert for Large Language Models”
画像の理解と文章の理解を同時に行うオープンソースモデルの性能は、まだ十分ではないと考えられています。
「画像を文章のように」処理するのが理想的ですが、実際には実現できていません。
そこで研究者らはLLMに画像情報をうまく読み込ませるためのモジュール「視覚エキスパート」を導入し、うまく画像を解析するLLM『CogVLM』を開発しました。
■『CogVLM』全体の仕組み
① ViTで画像から特徴を抽出する
② MLPアダプターで言語モデルの入力空間に適合するようにこれらの特徴を変換する
③ GPTスタイルのLLMに「視覚エキスパート」モジュールを追加してさらに処理する
■「視覚エキスパート」とは
① 視覚データを処理するために特化したコンポーネントとして機能する
② 言語モデルと画像エンコーダーの情報をつなぎ、深い統合を実現する
③ モデル全体の各層にわたって、テキスト特徴と視覚特徴を適切に混ぜ合わせるための情報変換を行う
■トレーニングと性能評価結果
① 1.5Bの画像テキストペアに対して事前トレーニング
② 視覚的グラウンディング機能を持つ40Mのデータセットでトレーニング
③ 14のクロスモーダルベンチマークでモデルを評価
→10のベンチマークで最先端のパフォーマンスを達成
→残り4のベンチマークでも次点を達成
■注意点
実世界のアプリケーションへの適用に当たっては、データセットの質、公平性、バイアスの有無などを検証する必要があるかもしれません。