最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

動画を理解する軽量なLLM『Apollo』、オープンソースで登場(商用利用も可能)

2024.12.19
深堀り解説

本記事では、動画を理解する大規模マルチモーダルモデル(動画LMM)を実際に設計し体系化を行ったMetaとStanford Universityの研究を紹介します。

大規模言語モデルや画像処理モデルは急速な進歩を遂げている一方で、動画の理解に特化したモデルの開発は遅れをとっていました。研究チームは、動画フレームの取り込み方から学習の方法まで、動画LMMの設計に関わるあらゆる要素を検証し、その成果としてApolloという新しいモデルの開発を達成しました。

    背景

    動画を理解するLLMの開発は、大きな可能性を秘めていながらも難しい状況にありました。

    最も大きな課題は、計算量の多さと設計の複雑さでした。動画をどのように区切って入力するか、どのような方式でデータを処理するか、どうすれば効率的にトークン化できるかなど、基本的な部分ですら明確な答えが見つかっていませんでした。

    これまでは、画像処理モデルを拡張したり、ビデオ用に微調整したりする方法が試みられました。その後、長い映像も処理できる仕組みや、複数のデータタイプを組み合わせる手法など、様々なアプローチが提案されました。しかし、それぞれの方法がどの程度効果的なのか、体系的な検証は行われませんでした。
    動画処理の基本となる技術要素を一つ一つ丁寧に見直し、最適な組み合わせを探る必要があります。映像の切り取り方、データの符号化方法、情報の圧縮方法、学習データの構成など、あらゆる面での検証が求められているのです。

    このような背景からMetaの研究者らは、動画を理解するマルチモーダルLLMの設計に関わるあらゆる要素を体系的に調査し、何が性能向上のカギとなるのか解明することを目指しました。そして、その知見を活かしてApolloという新しいモデルの開発へと結実させました。

    以下では、ベンチマーク、モデル設計、モデル評価の順に説明していきます。

    プレミアム会員限定コンテンツです

    無料会員でもできること

    • 一部記事の閲覧
    • 研究紹介短信ライブラリの基本機能
    • プロンプト管理ツールの利用

    プレミアム会員の特典

    • 全過去記事の無制限閲覧
    • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
    • 日本語検索対応の新着AI論文データベース
    • 研究紹介短信ライブラリの高度な機能を開放
    • 記事内容質問AIを使用可能に
    • プロンプト管理ツールの無制限使用

    記事検索

    年/月/日
    年/月/日

    関連記事