本記事では、Googleが開発した最新の画像生成AI「Imagen 3」の技術報告内容を紹介します。
Googleは、人間による評価と自動評価を用いた多角的な性能分析でImagen 3の評価を行いました。
重要なお知らせ:AI分野のお仕事マッチングサービス「AIDB HR」を開始しました!登録後はオファーを受け取るだけのシンプルなサービスです!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。
参照論文(テクニカルレポート)情報
- タイトル:Imagen 3
- 著者:Imagen 3 Team(多数)
- 所属:Google
背景
ユーザーが入力したテキストの内容に基づいて、高品質な画像を自動的に作成する技術が急速に発展しています。各企業や研究機関がそれぞれ切磋琢磨する中、GoogleはImagen(イマジェン)ファミリーを開発しています。
そして今回、最新モデルであるImagen 3が発表されました。Imagen 3は、潜在拡散モデル(テキストの意味を数値で表現し、それを徐々に画像に変換する技術)を採用しており、1024×1024ピクセルの高解像度画像を生成することができます。さらに、必要に応じて2倍、4倍、8倍まで拡大することも可能です。
他の最先端モデルと比較して評価された結果、Imagen 3は写実的な画像の生成や、長く複雑な指示に従う能力が優れていると明らかにされました。
なお、技術の発展に伴って新たな課題も浮上しています。例えば、生成された画像の安全性などです。そのためImagen 3の開発過程では、安全性やセキュリティなどについて詳細に工夫が施されました。
以下で詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。