LLMで長尺動画をテキスト化するVerbalizing

2023.10.30

動画（動画生成、動画理解、映像AI）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMを活用して長い動画を自然言語で説明するツール『verbalizing（バーバライジング）』がAdobeなどの研究者により開発されました。

高いレベルで「動画の理解」をするために活用可能です。

@ Aanisha Bhattacharya et al., “A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot”

世の中のメディアファイルは動画形式が非常に多くなっています。
にも関わらず、精度良く理解できると検証されているのは、動画が短時間の場合に限られています。

そこでAdobeなどの研究者らは、LLMを用いて、長めの動画をテキスト形式のストーリーに正確に変えるフレームワーク『verbalizing（バーバライジング）』を開発しました。

■『verbalizing』のポイント
① 光学フローに基づいてキーフレームを抽出
② キーフレーム、オーディオ、テキストオーバーレイから情報を抽出
③ 情報をLLMにプロンプトとして入力
④ LLMがビデオの説明を生成

■『verbalizing』の性能
以下の方法で性能評価が行われました。
① 5つのベンチマークデータセットで15のビデオ理解タスクを行う
② トップ1の精度を使用してパフォーマンスを評価
性能評価の結果は以下のとおりです。
① 既存のファインチューニングされたモデルを上回った
③ トピック、感情、訴求戦略の分類などにおいて優秀であった

■主な結論
① 高度にマルチモーダルなビデオもテキストで効果的に表現できる
② 人間によるアノテーションサンプルを必要とせずに、ビデオ理解は達成可能である

■注意点（論文記載／独自）
① 一部の詳細やニュアンスは失われる恐れもある
② パフォーマンスは構成要素（キーフレーム、オーディオ、テキストオーバーレイなど）によって左右される

📄 参照論文

論文情報と関連研究

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMで長尺動画をテキスト化するVerbalizing

📄 参照論文

こちらもどうぞ

🔒 ユーザー報告から見るLLMのリスク分布

🔒 なぜ、そのAIエージェントは失敗する？企業組織に学ぶ信頼できる「組織設計」の原則