マルチモーダルLLM「Unified-IO 2」登場

2023.12.29

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。

35以上のベンチマークで、多様なタスクにおける強力な性能が検証されているとのことです。

“Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision Language Audio and Action”より

■研究に至る背景
1. 既存モデルは多様な形式のデータを一度に扱わない
2. 単一モデルで処理すると広い応用が見える
3. 行動データの取り扱いにも可能性がある

■マルチモーダルLLM「Unified-IO 2」
1. 単一のTransformerが様々な入出力タイプに対応
2. 120以上のデータセットで事前学習
3. 視覚、テキスト、音声、行動データを処理する

■実験内容
1. さまざまな指示でタスクを実行させた
2. 異なるモダリティを合わせて解析させた
3. 35以上のベンチマークで性能を評価した

■実験結果
1. 以下のようなタスクで高い性能を発揮
– 画像生成・理解
– 自然言語理解
– ビデオ・オーディオ理解
2. 物理的な行動タスクでも有効性を実証

研究者らは今後の展望として、さらに新しいモダリティを追加していきたいと述べています。
また、データの偏りや計算コストには注意していきたいとのことです。

■参照情報

著者: Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

こちらもどうぞ