LLMによる動画理解の現状を網羅的にまとめた論文が公開されています。
現時点である程度可能なタスクなどが整理されています。
“Video Understanding with Large Language Models: A Survey”より
下記は報告内容の抜粋です。
■動画理解タスク例
1. 内容の認識と分類
2. オブジェクト追跡
3. 異常やイベントの検出
■性能向上に影響している要素
1. マルチモーダルデータの利用
2. 大規模な事前学習
3. 計算効率の良いハードウェア
■今後可能になる予定のタスク
1. 動画内の感情の変化の検出
2. 行動や結果の予測
3. インタラクティブなコンテンツの制作
現在のLLMはまだ一般化能力と適応性に限界があり、未知の状況への対応は今後の課題とのことです。