次回の更新記事:MCPの欠陥パターンと問題の具体例、そして対策方法(公開予定日:2026年03月07日)

多様な形式で入出力するNExT-GPT

画像・Vision(画像認識、VLM、マルチモーダル、OCR)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

テキスト、画像、ビデオ、オーディオなど、任意の形式でさまざまなデータを【入力】【出力】できるマルチモーダルLLM『NExT-GPT』が登場しました。
シンガポール国立大学の研究グループによる開発です。

○ Shengqiong Wu et al. NExT-GPT: Any-to-Any Multimodal LLM

これまで開発されたマルチモーダルLLMは、入力側のデータ形式を拡充することにフォーカスしていました。

『NExT-GPT』アーキテクチャでは、システムがLLMと連携し、多様な入力を理解するだけでなく多様な出力をも行います。

■『NExT-GPT』アーキテクチャの要旨
① さまざまなデータ形式の入力を受けとる
② LLMに理解可能な言語表現にマッピングする
③ エンコードされた入力をLLMが受け取り推論を行う
④ LLMから指示が出力される
④ さまざまな形式のコンテンツを生成・出力する

下記画像は、公開されている『NExT-GPT』(デモ機)を使用してみた様子です。
「なにかおかしな画像をつくってくれますか?」とお願いしたところ、サングラスをかけた猫の画像を作ってくれました。

📄 参照論文

○ NExT-GPT: Any-to-Any Multimodal LLM

著者: 著者:Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua

関連記事