視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。

   
★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。
★コンサルティングサポート(調査・研修・開発支援)をご希望の方はお問合せください。

最終更新日:2023/12/29

「Unified-IO 2」と名付けられた、視覚、テキスト、音声、そして行動データを統合処理するマルチモーダルな大規模言語モデル(LLM)の開発が発表されました。

35以上のベンチマークで、多様なタスクにおける強力な性能が検証されているとのことです。

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action“より


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

関連研究

「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル(LVM)を構築するアプローチを開発

Gemini vs GPT-4V、画像認識能力でどちらが優秀なのか

Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕

Metaのリアルタイム多言語間翻訳システム『Seamless(シームレス)』は話し方のトーンや抑揚も反映

※本記事はAIDBのXポストを転載したものです。

※研究の概要を手早く把握するためのカジュアルな紹介記事です。

研究に至る背景

  1. 既存モデルは多様な形式のデータを一度に扱わない
  2. 単一モデルで処理すると広い応用が見える
  3. 行動データの取り扱いにも可能性がある

マルチモーダルLLM「Unified-IO 2」

  1. 単一のTransformerが様々な入出力タイプに対応
  2. 120以上のデータセットで事前学習
  3. 視覚、テキスト、音声、行動データを処理する

実験内容

  1. さまざまな指示でタスクを実行させた
  2. 異なるモダリティを合わせて解析させた
  3. 35以上のベンチマークで性能を評価した

実験結果

  1. 以下のようなタスクで高い性能を発揮
  • 画像生成・理解
  • 自然言語理解
  • ビデオ・オーディオ理解
  1. 物理的な行動タスクでも有効性を実証

研究者らは今後の展望として、さらに新しいモダリティを追加していきたいと述べています。
また、データの偏りや計算コストには注意していきたいとのことです。

参照情報

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
https://arxiv.org/abs/2312.17172
著者:Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
機関:Allen Institute for AI, University of Illinois Urbana-Champaign, University of Washington
プロジェクトページ:https://unified-io-2.allenai.org
コード:https://github.com/allenai/unified-io-2


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP