動画を理解する軽量なLLM『Apollo』、オープンソースで登場(商用利用も可能)
本記事では、動画を理解する大規模マルチモーダルモデル(動画LMM)を実際に設計し体系化を行ったMetaとStanford Universityの研究を紹介します。
大規模言語モデルや画像処理モデルは急速な進歩を遂げている一方で、動画の理解に特化したモデルの開発は遅れをとっていました。研究チームは、動画フレームの取り込み方から学習の方法まで、動画LMMの設計に関わるあらゆる要素を検証し、その成果としてApolloという新しいモデルの開発を達成しました。

背景
動画を理解するLLMの開発は、大きな可能性を秘めていながらも難しい状況にありました。
最も大きな課題は、計算量の多さと設計の複雑さでした。動画をどのように区切って入力するか、どのような方式でデータを処理するか、どうすれば効率的にトークン化できるかなど、基本的な部分ですら明確な答えが見つかっていませんでした。
これまでは、画像処理モデルを拡張したり、ビデオ用に微調整したりする方法が試みられました。その後、長い映像も処理できる仕組みや、複数のデータタイプを組み合わせる手法など、様々なアプローチが提案されました。しかし、それぞれの方法がどの程度効果的なのか、体系的な検証は行われませんでした。
動画処理の基本となる技術要素を一つ一つ丁寧に見直し、最適な組み合わせを探る必要があります。映像の切り取り方、データの符号化方法、情報の圧縮方法、学習データの構成など、あらゆる面での検証が求められているのです。
このような背景からMetaの研究者らは、動画を理解するマルチモーダルLLMの設計に関わるあらゆる要素を体系的に調査し、何が性能向上のカギとなるのか解明することを目指しました。そして、その知見を活かしてApolloという新しいモデルの開発へと結実させました。
以下では、ベンチマーク、モデル設計、モデル評価の順に説明していきます。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。


PAGE TOP