テキストからの画像生成
テキストから画像を生成するアプローチは、敵対的生成ネットワークなど機械学習技術の発展により、非常に忠実な生成を行うことが示されています。最近では、事前学習したクロスモーダルなマスク付き言語モデルへの入力を最適化する方法が提案されています。
新手法では視覚的な忠実度は大幅に向上しましたが、オブジェクトの歪み、あり得ないオブジェクトの配置、前景と背景の要素の不自然な合成などの問題が残る場合もあります。最先端の手法では何が結果を制限する要因になっているのか、研究が進んでいます。
テキストから画像を生成する技術において、最も新しい研究はどのようなものでしょうか。イギリスのマンチェスター大学のAditya Rameshら研究者の発表を紹介します。
研究者らはテキストと画像のトークンを単一のデータストリームとして自己回帰的にモデル化する変換器による、シンプルなアプローチを提案しました。
▼論文情報
著者:Aditya RameshMikhail PavlovGabriel GohScott GrayChelsea VossAlec RadfordMark ChenIlya Sutskever
タイトル:”Zero-Shot Text-to-Image Generation”
arXiv
URL:DOI
関連記事▶︎【Facebook】クリエイティブなスケッチを生成するAIを開発したと発表(AI×アート論文解説)
ゼロショットでのテキストから画像生成
まずはAdityaらの研究におけるミッション・手法・結果をまとめました。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。