「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル（LVM）を構築するアプローチを開発

■お知らせ：AIDBの感想を募集しています！

「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル（LVM）を構築するアプローチを開発

UC BerkeleyとJohns Hopkins Universityの研究者らは、「視覚は本来、言語に依存しない」と考え、言語データを使用せずに大規模ビジョンモデル（LVM）を効果的に学習する新しいアプローチを開発しました。

研究者らは、開発したアプローチが大規模なデータセットに対して優れたスケーラビリティを持ち、さまざまなビジョンタスクに適用可能であることを示しました。

本記事では、そのアプローチ、機能、実験結果などの詳細を紹介します。

参照論文情報

タイトル：Sequential Modeling Enables Scalable Learning for Large Vision Models

著者：Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan Yuille, Trevor Darrell, Jitendra Malik, Alexei A Efros

所属：UC Berkeley, Johns Hopkins University

URL：https://doi.org/10.48550/arXiv.2312.00785

プロジェクトページ：https://yutongbai.com/lvm.html

研究背景

コンピュータビジョンの分野は、ディープラーニングの登場と大規模データセットによって大きく進歩してきました。一例としてImageNetのような画像認識のブレークスルーは、視覚タスクの自動化と新しいアプリケーションの開発を加速してきました。

一方、AI分野全体における大きな動きとして、GPT-4やLLaMAのようなLLMが、膨大な言語データを学習することで、言語タスクにおいて高度な理解と生成能力を獲得してきました。なお、広く使用されているLLMはトランスフォーマーアーキテクチャを使用して文脈を考慮した情報処理を行なっています。

そしてLLMのアーキテクチャを改造する形で、膨大なテキストデータに基づく言語処理能力と、膨大な視覚データによる訓練をあわせて、GPT-4VやLLaVAのような大規模視覚言語モデルが登場してきたのが直近の流れです。

しかし研究者らは、もともと視覚自体は言語に依存しない直感的なものだと考えました。そこで、言語データに頼らずに視覚データから学習する大規模モデルの可能性を模索し始めました。

そして従来の学習手法に代わる新手法の可能性が浮上し、言語データを使用せずに視覚タスクを処理する能力を持つLVMの構築が行われました。

アプローチ

画像や動画のビジュアル文定義

本研究ではまず「ビジュアル文」を定義し、それを使って画像や動画を表現する方針がとられました。ビジュアル文とは、画像や動画、注釈付きデータなどの視覚データを、メタ知識を必要とせずにシーケンスとして表現する新しいフォーマットです。

研究者たちは、視覚データには、テキストデータとは異なり自然なシーケンシャルな構造が存在しないため、画像ピクセルをビジュアル文として直接モデル化することはできないかもしれないと考えました。

そこで、個々の画像を操作して、各画像を「視覚トークンのシーケンス」に変換する大規模な「視覚トークナイザー」を訓練する二段階のアプローチを採用しています。

異なる種類の視覚データを統一的な画像シーケンスの形式で表現する「ビジュアル文」の概念を説明する図

視覚データのトークン化におけるポイント

VQGANを用いて画像を離散トークンに変換した後、これらのトークンを複数の画像から1Dシーケンスに連結し、ビジュアル文として統一的に扱っています。

ここで重要なのは、特定のタスクやフォーマットを示す特別なトークンは使用せず、すべてのビジュアル文を平等に扱うことです。モデルがタスクやフォーマット固有のトークンからではなく、コンテキストから画像間の関係を推論できるようにします。

つまり、画像を特別な記号に変換し、それらをつなげて一連の流れとして扱い、画像の内容を理解するための新しい方法を使っています。

自己回帰型トランスフォーマーモデルの訓練

研究者たちは、自然言語コミュニティからのインスピレーションを受け、方法論の中心を、マスクされたトークンモデリングから順序的自己回帰予測へと移行しました。

画像、動画、注釈付き画像をすべてシーケンスとして表現することで、次のトークン予測のためのクロスエントロピー損失を最小化する訓練が可能になります。この極めてシンプルな設計を通じて、モデルサイズとデータサイズを増やすことで適切なスケーリング行動が可能となります。なお実験を通して、適切なプロンプトを設計することでさまざまなビジョンタスクが「解決」されることを実証しています（後述）。

要するにこの研究では、画像や動画を次々と予測する方法でモデルを訓練し、さまざまな視覚的な問題を効果的に解決する方法を開発しました。

言語データなしで訓練されたLVMの機能

言語データを使用せずに訓練されたLVMは、基本ビジョンタスクに加えて、未知のデータへの対応能力も持っています。

基本的なタスクを実行

上記の方法論によって言語データなしで訓練されたLVMは、いくつか基本ビジョンタスクに取り組む能力が示されています。

以下は論文で示されているタスクの例です。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

Geminiの高い推論能力を活かして、過去最高水準のプログラミングAI『AlphaCode 2』も誕生したとの報告

LLMへの入力プロンプトを「意味を保持したまま」高度に圧縮する技術『LLMLingua』

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル（LVM）を構築するアプローチを開発

研究背景

アプローチ

画像や動画のビジュアル文定義

視覚データのトークン化におけるポイント

自己回帰型トランスフォーマーモデルの訓練

言語データなしで訓練されたLVMの機能

基本的なタスクを実行

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

直近1週間で読まれている記事

直近1ヶ月で読まれている記事

AIDBとは

おすすめポスト