Google DeepMindがリリースした新世代の画像生成モデル「Imagen 3」テクニカルレポート

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

本記事では、Googleが開発した最新の画像生成AI「Imagen 3」の技術報告内容を紹介します。

Googleは、人間による評価と自動評価を用いた多角的な性能分析でImagen 3の評価を行いました。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文(テクニカルレポート)情報

  • タイトル:Imagen 3
  • 著者:Imagen 3 Team(多数)
  • 所属:Google

背景

ユーザーが入力したテキストの内容に基づいて、高品質な画像を自動的に作成する技術が急速に発展しています。各企業や研究機関がそれぞれ切磋琢磨する中、GoogleはImagen(イマジェン)ファミリーを開発しています。

そして今回、最新モデルであるImagen 3が発表されました。Imagen 3は、潜在拡散モデル(テキストの意味を数値で表現し、それを徐々に画像に変換する技術)を採用しており、1024×1024ピクセルの高解像度画像を生成することができます。さらに、必要に応じて2倍、4倍、8倍まで拡大することも可能です。

他の最先端モデルと比較して評価された結果、Imagen 3は写実的な画像の生成や、長く複雑な指示に従う能力が優れていると明らかにされました。

なお、技術の発展に伴って新たな課題も浮上しています。例えば、生成された画像の安全性などです。そのためImagen 3の開発過程では、安全性やセキュリティなどについて詳細に工夫が施されました。

以下で詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP