視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。

「Unified-IO 2」と名付けられた、視覚、テキスト、音声、そして行動データを統合処理するマルチモーダルな大規模言語モデル（LLM）の開発が発表されました。

35以上のベンチマークで、多様なタスクにおける強力な性能が検証されているとのことです。

“Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action“より

研究に至る背景

既存モデルは多様な形式のデータを一度に扱わない
単一モデルで処理すると広い応用が見える
行動データの取り扱いにも可能性がある

マルチモーダルLLM「Unified-IO 2」

単一のTransformerが様々な入出力タイプに対応
120以上のデータセットで事前学習
視覚、テキスト、音声、行動データを処理する

実験内容

さまざまな指示でタスクを実行させた
異なるモダリティを合わせて解析させた
35以上のベンチマークで性能を評価した

実験結果

以下のようなタスクで高い性能を発揮

画像生成・理解
自然言語理解
ビデオ・オーディオ理解

物理的な行動タスクでも有効性を実証

研究者らは今後の展望として、さらに新しいモダリティを追加していきたいと述べています。
また、データの偏りや計算コストには注意していきたいとのことです。

参照情報

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
https://arxiv.org/abs/2312.17172
著者：Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi
機関：Allen Institute for AI, University of Illinois Urbana-Champaign, University of Washington
プロジェクトページ：https://unified-io-2.allenai.org
コード：https://github.com/allenai/unified-io-2

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。