次回の更新記事:LLMに「もっと読みやすくして」とリファクタリングを…(公開予定日:2026年03月02日)

マルチモーダルLLM:理解から生成、そして多様な変換へ

画像・Vision(画像認識、VLM、マルチモーダル、OCR)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

マルチモーダルLLMの技術やトレンドを網羅的にまとめた報告書が出されています。

最近では「どんなモダリティからでも、あらゆるモダリティへ」変換できるように研究が進んでいるとのことです。

Tencentや京都大学などの研究者らによる発表です。

“MM-LLMs: Recent Advances in MultiModal Large Language Models”より

下記は報告内容よりトレンドに関する情報の抜粋です。

■「理解」から「生成」へ進展
– はじめはマルチモーダルデータ認識に力を入れていた
– いまは、出力する機能を段階的に備えてきた
– 複雑なタスクへの応用も可能になってきた

■任意のモダリティ間で変換したい
– 以前は特定のモダリティ間変換のみだった
– 現在はさまざまなモダリティを一度に扱う
– 人間の直感に近くなってきた

■トレーニングは事前学習からRLHFへ
– テキストとそれ以外の関係を学習してきた
– モデルをタスクに特化させるSFTが試されてきた
– 最近はRLHFにより会話の自然さを向上させている

■進化の方向性はさまざま
– モダリティの多様性を拡張する
– より高品質な訓練データを使う
– より効率的なモデルアーキテクチャを作る

📄 参照論文

参照情報:

関連記事