マルチモーダルLLMの技術やトレンドを網羅的にまとめた報告書が出されています。
最近では「どんなモダリティからでも、あらゆるモダリティへ」変換できるように研究が進んでいるとのことです。
Tencentや京都大学などの研究者らによる発表です。
“MM-LLMs: Recent Advances in MultiModal Large Language Models”より
下記は報告内容よりトレンドに関する情報の抜粋です。
■「理解」から「生成」へ進展
– はじめはマルチモーダルデータ認識に力を入れていた
– いまは、出力する機能を段階的に備えてきた
– 複雑なタスクへの応用も可能になってきた
■任意のモダリティ間で変換したい
– 以前は特定のモダリティ間変換のみだった
– 現在はさまざまなモダリティを一度に扱う
– 人間の直感に近くなってきた
■トレーニングは事前学習からRLHFへ
– テキストとそれ以外の関係を学習してきた
– モデルをタスクに特化させるSFTが試されてきた
– 最近はRLHFにより会話の自然さを向上させている
■進化の方向性はさまざま
– モダリティの多様性を拡張する
– より高品質な訓練データを使う
– より効率的なモデルアーキテクチャを作る