「視覚は本来、言語に依存しない」と考えたUCバークレーとジョンスホプキンス大学の研究者らは、言語データなしで大規模ビジョンモデル(LVM)を構築するアプローチを考えました。
実験の結果、多様な基本ビジョンタスクはもとより、未知のタスクにも対応できる可能性が明らかになったとのことです。
– “Sequential Modeling Enables Scalable Learning for Large Vision Models”
GPT-4やLLaMAほか、LLMは膨大な言語データを学習し、視覚タスクも行っています。
しかし研究者らは「視覚は本来、言語に依存しない」と考えました。
そこで言語データなしで大規模ビジョンモデル(LVM)を構築するアプローチを開発しました。
■アプローチの詳細
① 画像や動画を表現する「ビジュアル文」を定義
(ピクセル以外のメタ情報はない)
② 視覚データをトークン化
③ 自己回帰型トランスフォーマーモデルを訓練
■言語データなしで訓練されたLVMの機能
① 基本タスク:
動画フレームの予測/未知のデータへの適用 など深度推定/エッジ検出 など
② 新しいタスクやデータにも対応:
(例)動画フレームの予測/未知のデータへの適用 など
■実験の結果わかったこと
① モデルは大量データを処理し学習する能力が高い
② 様々なビジョンタスクで有効
③ モデルサイズが大きくなるにつれて、下流タスクのパフォーマンス向上する
→データ量が膨大な分野で役にたつ知見になる可能性がある
ただし研究者らは、やはり注釈付きデータも大事だと考えています。また、このアプローチが実世界の複雑なタスクでどれだけ有効かは、まだまだ検証が必要とのことです。