DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか?OpenAIが論文で発表

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

DALL-E 3はユーザーの意図を非常に正確に理解することができると言われている画像生成モデルです。

今回OpenAIは、DALL-E 3がいかにしてユーザーの指示を読み取れるようになったのかを論文で解説しています。
最大の特長は、GPT-4で訓練された高度な画像キャプショナーを使用している点で、「人間が自然に使用する言葉」で説明文を理解する能力を技術的に実現しています。

本記事ではOpenAIの論文をもとに、DALL-E 3の仕組みを見ていきます。

参照論文情報

・タイトル:Improving Image Generation with Better Captions
・著者:James Betker, Gabriel Goh, Li Jing, Aditya Ramesh, Jianfeng Wang, Linjie Li
・所属:OpenAI, Microsoft
・URL:https://cdn.openai.com/papers/dall-e-3.pdf

従来の課題と背景

従来の画像生成AIは、テキストに含まれるユーザーの指示を正確に読み取ることが難しいという大きな課題がありました。AIがプロンプト(指示文)の言葉や意味をしばしば無視するか誤解するためです。

この課題を解決するために、多くのプロンプト技術が開発され、ユーザー間でシェアされてきました。しかし、プロンプトのテクニックは複雑な体系になり、一般のユーザーには容易には理解できないものも多い状態です。

OpenAIの論文によれば、これまでの画像生成AIは主にトレーニングデータセットに含まれる画像キャプションの品質に問題があるとされています。従来のデータセットは、詳細な画像説明を欠いていたり、プロンプトの言葉や意味を誤解する可能性が高いと指摘されています。

本記事の関連研究:OpenAIは、DALL·E 3の論文を通して「画像生成AIの安全性は前進した」ことを報告

DALL-E 3の登場とフレームワーク


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

DALL-E 3の研究では、上述の問題に対処するために、高度に記述的な生成された画像キャプションでトレーニングを行う方法が提案されています。

DALL-E 3のフレームワーク開発プロセス

高度な画像キャプショナーの訓練

DALL-E 3の開発では、GPT-4などの先進的な言語モデルを使用して、詳細で正確な画像キャプションを生成するキャプショナーが訓練されています。このキャプショナーがDALL-E 3の性能向上に大きく貢献します。

大規模な画像&テキストペアの訓練データセットの選定

また、高品質な画像とテキストペアのデータセットが選択されています。データセットは、多様なシナリオと環境で撮影された画像と、それに対応する詳細なテキスト説明が含まれています。モデルが多様な入力に対応できるようにするために不可欠です。

既存の訓練データセットのアップデート

そして、高度な画像キャプショナーを用いて、既存の訓練データセットがアップデートされています。既存のキャプションが不正確または不完全である場合、新しいキャプショナーで生成した高度なキャプションで置き換えます。訓練データの質が向上し、結果としてDALL-E 3の性能も向上します。

キャプションの正則化

さらに、キャプションのスタイルやフォーマットが、人間が使用するものに近づけられています。この工夫によって、モデルが人間のような自然な言語での指示により効果的に応答できるようになっています。

DALL-E 3の訓練

上記の過程を経て生まれた新しいキャプションを用いてDALL-E 3は訓練され、プロンプトに対する応答性が大幅に向上しています。

評価とパフォーマンス

DALL-E 3は、CLIPスコアというテキストと画像の類似性を測定する指標で評価されています。DALL-E 3は従来のモデルと比較して優れたプロンプト応答性を持つことが確認されています。

本記事の関連研究:OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化

性能の実験






評価の基準

DALL-E 3の性能は、オリジナルのキャプションと生成されたキャプションを用いて、データセットから生成された50,000枚の画像に基づいて評価されました。

DrawBenchの導入と影響

DrawBenchは、テキストから画像を生成するモデルの性能を評価するためのベンチマークツールです。このツールはDALL-E 3の評価において、

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP