多様な形式で入出力するNExT-GPT

2023.09.12

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

テキスト、画像、ビデオ、オーディオなど、任意の形式でさまざまなデータを【入力】【出力】できるマルチモーダルLLM『NExT-GPT』が登場しました。
シンガポール国立大学の研究グループによる開発です。

○ Shengqiong Wu et al. NExT-GPT: Any-to-Any Multimodal LLM

これまで開発されたマルチモーダルLLMは、入力側のデータ形式を拡充することにフォーカスしていました。

『NExT-GPT』アーキテクチャでは、システムがLLMと連携し、多様な入力を理解するだけでなく多様な出力をも行います。

■『NExT-GPT』アーキテクチャの要旨
① さまざまなデータ形式の入力を受けとる
② LLMに理解可能な言語表現にマッピングする
③ エンコードされた入力をLLMが受け取り推論を行う
④ LLMから指示が出力される
④ さまざまな形式のコンテンツを生成・出力する

下記画像は、公開されている『NExT-GPT』（デモ機）を使用してみた様子です。
「なにかおかしな画像をつくってくれますか？」とお願いしたところ、サングラスをかけた猫の画像を作ってくれました。

○ NExT-GPT: Any-to-Any Multimodal LLM

著者: 著者：Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua

こちらもどうぞ