視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
35以上のベンチマークで、多様なタスクにおける強力な性能が検証されているとのことです。
“Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action”より
■研究に至る背景
1. 既存モデルは多様な形式のデータを一度に扱わない
2. 単一モデルで処理すると広い応用が見える
3. 行動データの取り扱いにも可能性がある
■マルチモーダルLLM「Unified-IO 2」
1. 単一のTransformerが様々な入出力タイプに対応
2. 120以上のデータセットで事前学習
3. 視覚、テキスト、音声、行動データを処理する
■実験内容
1. さまざまな指示でタスクを実行させた
2. 異なるモダリティを合わせて解析させた
3. 35以上のベンチマークで性能を評価した
■実験結果
1. 以下のようなタスクで高い性能を発揮
– 画像生成・理解
– 自然言語理解
– ビデオ・オーディオ理解
2. 物理的な行動タスクでも有効性を実証
研究者らは今後の展望として、さらに新しいモダリティを追加していきたいと述べています。
また、データの偏りや計算コストには注意していきたいとのことです。