LLMを活用して長い動画を自然言語で説明するツール『verbalizing(バーバライジング)』がAdobeなどの研究者により開発されました。
高いレベルで「動画の理解」をするために活用可能です。
@ Aanisha Bhattacharya et al., “A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot”
世の中のメディアファイルは動画形式が非常に多くなっています。
にも関わらず、精度良く理解できると検証されているのは、動画が短時間の場合に限られています。
そこでAdobeなどの研究者らは、LLMを用いて、長めの動画をテキスト形式のストーリーに正確に変えるフレームワーク『verbalizing(バーバライジング)』を開発しました。
■『verbalizing』のポイント
① 光学フローに基づいてキーフレームを抽出
② キーフレーム、オーディオ、テキストオーバーレイから情報を抽出
③ 情報をLLMにプロンプトとして入力
④ LLMがビデオの説明を生成
■『verbalizing』の性能
以下の方法で性能評価が行われました。
① 5つのベンチマークデータセットで15のビデオ理解タスクを行う
② トップ1の精度を使用してパフォーマンスを評価
性能評価の結果は以下のとおりです。
① 既存のファインチューニングされたモデルを上回った
③ トピック、感情、訴求戦略の分類などにおいて優秀であった
■主な結論
① 高度にマルチモーダルなビデオもテキストで効果的に表現できる
② 人間によるアノテーションサンプルを必要とせずに、ビデオ理解は達成可能である
■注意点(論文記載/独自)
① 一部の詳細やニュアンスは失われる恐れもある
② パフォーマンスは構成要素(キーフレーム、オーディオ、テキストオーバーレイなど)によって左右される