最新の記事:ゲームで鍛えるAIの戦略的思考 ペルソナ作り、プロ…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

マルチモーダルLLM:理解から生成、そして多様な変換へ

画像・Vision(画像認識、VLM、マルチモーダル、OCR)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

マルチモーダルLLMの技術やトレンドを網羅的にまとめた報告書が出されています。

最近では「どんなモダリティからでも、あらゆるモダリティへ」変換できるように研究が進んでいるとのことです。

Tencentや京都大学などの研究者らによる発表です。

“MM-LLMs: Recent Advances in MultiModal Large Language Models”より

下記は報告内容よりトレンドに関する情報の抜粋です。

■「理解」から「生成」へ進展
– はじめはマルチモーダルデータ認識に力を入れていた
– いまは、出力する機能を段階的に備えてきた
– 複雑なタスクへの応用も可能になってきた

■任意のモダリティ間で変換したい
– 以前は特定のモダリティ間変換のみだった
– 現在はさまざまなモダリティを一度に扱う
– 人間の直感に近くなってきた

■トレーニングは事前学習からRLHFへ
– テキストとそれ以外の関係を学習してきた
– モデルをタスクに特化させるSFTが試されてきた
– 最近はRLHFにより会話の自然さを向上させている

■進化の方向性はさまざま
– モダリティの多様性を拡張する
– より高品質な訓練データを使う
– より効率的なモデルアーキテクチャを作る

📄 参照論文

参照情報:

関連記事