最新の記事:科学は「研究」と「査読」両方が加速していく AIと…
「論文データベース(β版)」公開しました!新着論文を日本語で検索できます。ぜひご活用ください。 見てみる

Google DeepMindがリリースした新世代の画像生成モデル「Imagen 3」テクニカルレポート

2024.08.20
深堀り解説

本記事では、Googleが開発した最新の画像生成AI「Imagen 3」の技術報告内容を紹介します。

Googleは、人間による評価と自動評価を用いた多角的な性能分析でImagen 3の評価を行いました。

参照論文(テクニカルレポート)情報

  • タイトル:Imagen 3
  • 著者:Imagen 3 Team(多数)
  • 所属:Google

背景

ユーザーが入力したテキストの内容に基づいて、高品質な画像を自動的に作成する技術が急速に発展しています。各企業や研究機関がそれぞれ切磋琢磨する中、GoogleはImagen(イマジェン)ファミリーを開発しています。

そして今回、最新モデルであるImagen 3が発表されました。Imagen 3は、潜在拡散モデル(テキストの意味を数値で表現し、それを徐々に画像に変換する技術)を採用しており、1024×1024ピクセルの高解像度画像を生成することができます。さらに、必要に応じて2倍、4倍、8倍まで拡大することも可能です。

他の最先端モデルと比較して評価された結果、Imagen 3は写実的な画像の生成や、長く複雑な指示に従う能力が優れていると明らかにされました。

なお、技術の発展に伴って新たな課題も浮上しています。例えば、生成された画像の安全性などです。そのためImagen 3の開発過程では、安全性やセキュリティなどについて詳細に工夫が施されました。

以下で詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能
  • プロンプト管理ツールの利用

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に
  • プロンプト管理ツールの無制限使用

記事検索

年/月/日
年/月/日

関連記事