次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

LLMで長尺動画をテキスト化するVerbalizing

動画(動画生成、動画理解、映像AI)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMを活用して長い動画を自然言語で説明するツール『verbalizing(バーバライジング)』がAdobeなどの研究者により開発されました。

高いレベルで「動画の理解」をするために活用可能です。

@ Aanisha Bhattacharya et al., “A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot”

世の中のメディアファイルは動画形式が非常に多くなっています。
にも関わらず、精度良く理解できると検証されているのは、動画が短時間の場合に限られています。

そこでAdobeなどの研究者らは、LLMを用いて、長めの動画をテキスト形式のストーリーに正確に変えるフレームワーク『verbalizing(バーバライジング)』を開発しました。

■『verbalizing』のポイント
① 光学フローに基づいてキーフレームを抽出
② キーフレーム、オーディオ、テキストオーバーレイから情報を抽出
③ 情報をLLMにプロンプトとして入力
④ LLMがビデオの説明を生成

■『verbalizing』の性能
以下の方法で性能評価が行われました。
① 5つのベンチマークデータセットで15のビデオ理解タスクを行う
② トップ1の精度を使用してパフォーマンスを評価
性能評価の結果は以下のとおりです。
① 既存のファインチューニングされたモデルを上回った
③ トピック、感情、訴求戦略の分類などにおいて優秀であった

■主な結論
① 高度にマルチモーダルなビデオもテキストで効果的に表現できる
② 人間によるアノテーションサンプルを必要とせずに、ビデオ理解は達成可能である

■注意点(論文記載/独自)
① 一部の詳細やニュアンスは失われる恐れもある
② パフォーマンスは構成要素(キーフレーム、オーディオ、テキストオーバーレイなど)によって左右される

📄 参照論文

論文情報と関連研究

関連記事