動画理解LLM「Video-LLaVA」オープンソースで登場

2023.11.26

動画（動画生成、動画理解、映像AI）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

画像だけでなく動画も読み込んで分析し、文章で解説してもらうツール『Video-LLaVA』が開発されました。

手元の動画ファイルをアップロードでき、日本語にも対応しています。

幾つかの性能評価で最高レベルの成績を達成するオープンソースモデルの登場です。

@ Bin Lin et al., “Video-LLaVA: Learning United Visual Representation by Alignment Before Projection”

論文によると、これまでLLMに分析させる対象としてはテキストや画像に重点が置かれていました。

しかし今回、研究者らは、テキストや画像に加えて動画も一括で分析可能なモデル『Video-LLaVA』を作成しました。

■『Video-LLaVA』のポイント
① 画像も動画も同一のプロセスで処理
② エンコーダで視覚を言語に変換
③ 従来のモデルを上回る処理性能

■性能
下記の実験で優れた性能を達成しています。
① 画像ベンチマークの9つのデータセット
② 5つの画像Q&Aデータセット
③ 4つの動画Q&Aデータセット

■デモの使い方
※非常に簡単な手順
① HuggingFaceやReplicateのページ（後述）にアクセス
② 画像や動画をアップロード
③ LLMとチャット

『Video-LLaVA』はLLM（Vicuna-13B）の視覚能力を強化する形で、動画の理解を実現しているとのことです。

なお、本アプローチが別のモデル（GPT-4など）にも適用可能かどうかは、さらなる研究が必要です。

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ