Google DeepMindがリリースした新世代の画像生成モデル「Imagen 3」テクニカルレポート

■お知らせ：AIDBの感想を募集しています！

Google DeepMindがリリースした新世代の画像生成モデル「Imagen 3」テクニカルレポート

本記事では、Googleが開発した最新の画像生成AI「Imagen 3」の技術報告内容を紹介します。

Googleは、人間による評価と自動評価を用いた多角的な性能分析でImagen 3の評価を行いました。

参照論文（テクニカルレポート）情報

タイトル：Imagen 3

著者：Imagen 3 Team（多数）

所属：Google

背景

ユーザーが入力したテキストの内容に基づいて、高品質な画像を自動的に作成する技術が急速に発展しています。各企業や研究機関がそれぞれ切磋琢磨する中、GoogleはImagen（イマジェン）ファミリーを開発しています。

そして今回、最新モデルであるImagen 3が発表されました。Imagen 3は、潜在拡散モデル（テキストの意味を数値で表現し、それを徐々に画像に変換する技術）を採用しており、1024×1024ピクセルの高解像度画像を生成することができます。さらに、必要に応じて2倍、4倍、8倍まで拡大することも可能です。

他の最先端モデルと比較して評価された結果、Imagen 3は写実的な画像の生成や、長く複雑な指示に従う能力が優れていると明らかにされました。

なお、技術の発展に伴って新たな課題も浮上しています。例えば、生成された画像の安全性などです。そのためImagen 3の開発過程では、安全性やセキュリティなどについて詳細に工夫が施されました。

以下で詳しく紹介します。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

LLMの事前学習とファインチューニングの関係についての新視点　まるで「アムロ」と「シャア」？

民事裁判をLLMで模倣　シミュレートを経てLLMの法律能力が強化される

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

Google DeepMindがリリースした新世代の画像生成モデル「Imagen 3」テクニカルレポート

背景

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

直近1週間で読まれている記事

直近1ヶ月で読まれている記事

AIDBとは

おすすめポスト