テキスト、画像、ビデオ、オーディオなど、任意の形式でさまざまなデータを【入力】【出力】できるマルチモーダルLLM『NExT-GPT』が登場しました。
シンガポール国立大学の研究グループによる開発です。
○ Shengqiong Wu et al. NExT-GPT: Any-to-Any Multimodal LLM
これまで開発されたマルチモーダルLLMは、入力側のデータ形式を拡充することにフォーカスしていました。
『NExT-GPT』アーキテクチャでは、システムがLLMと連携し、多様な入力を理解するだけでなく多様な出力をも行います。
■『NExT-GPT』アーキテクチャの要旨
① さまざまなデータ形式の入力を受けとる
② LLMに理解可能な言語表現にマッピングする
③ エンコードされた入力をLLMが受け取り推論を行う
④ LLMから指示が出力される
④ さまざまな形式のコンテンツを生成・出力する
下記画像は、公開されている『NExT-GPT』(デモ機)を使用してみた様子です。
「なにかおかしな画像をつくってくれますか?」とお願いしたところ、サングラスをかけた猫の画像を作ってくれました。