DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか？OpenAIが論文で発表

DALL-E 3はユーザーの意図を非常に正確に理解することができると言われている画像生成モデルです。

今回OpenAIは、DALL-E 3がいかにしてユーザーの指示を読み取れるようになったのかを論文で解説しています。
最大の特長は、GPT-4で訓練された高度な画像キャプショナーを使用している点で、「人間が自然に使用する言葉」で説明文を理解する能力を技術的に実現しています。

本記事ではOpenAIの論文をもとに、DALL-E 3の仕組みを見ていきます。

参照論文情報

・タイトル：Improving Image Generation with Better Captions
・著者：James Betker, Gabriel Goh, Li Jing, Aditya Ramesh, Jianfeng Wang, Linjie Li
・所属：OpenAI, Microsoft
・URL：https://cdn.openai.com/papers/dall-e-3.pdf

従来の課題と背景

従来の画像生成AIは、テキストに含まれるユーザーの指示を正確に読み取ることが難しいという大きな課題がありました。AIがプロンプト（指示文）の言葉や意味をしばしば無視するか誤解するためです。

この課題を解決するために、多くのプロンプト技術が開発され、ユーザー間でシェアされてきました。しかし、プロンプトのテクニックは複雑な体系になり、一般のユーザーには容易には理解できないものも多い状態です。

OpenAIの論文によれば、これまでの画像生成AIは主にトレーニングデータセットに含まれる画像キャプションの品質に問題があるとされています。従来のデータセットは、詳細な画像説明を欠いていたり、プロンプトの言葉や意味を誤解する可能性が高いと指摘されています。

DALL-E 3の登場とフレームワーク

DALL-E 3の研究では、上述の問題に対処するために、高度に記述的な生成された画像キャプションでトレーニングを行う方法が提案されています。

DALL-E 3のフレームワーク開発プロセス

高度な画像キャプショナーの訓練

DALL-E 3の開発では、GPT-4などの先進的な言語モデルを使用して、詳細で正確な画像キャプションを生成するキャプショナーが訓練されています。このキャプショナーがDALL-E 3の性能向上に大きく貢献します。

大規模な画像＆テキストペアの訓練データセットの選定

また、高品質な画像とテキストペアのデータセットが選択されています。データセットは、多様なシナリオと環境で撮影された画像と、それに対応する詳細なテキスト説明が含まれています。モデルが多様な入力に対応できるようにするために不可欠です。

既存の訓練データセットのアップデート

そして、高度な画像キャプショナーを用いて、既存の訓練データセットがアップデートされています。既存のキャプションが不正確または不完全である場合、新しいキャプショナーで生成した高度なキャプションで置き換えます。訓練データの質が向上し、結果としてDALL-E 3の性能も向上します。

キャプションの正則化

さらに、キャプションのスタイルやフォーマットが、人間が使用するものに近づけられています。この工夫によって、モデルが人間のような自然な言語での指示により効果的に応答できるようになっています。

DALL-E 3の訓練

上記の過程を経て生まれた新しいキャプションを用いてDALL-E 3は訓練され、プロンプトに対する応答性が大幅に向上しています。

評価とパフォーマンス

DALL-E 3は、CLIPスコアというテキストと画像の類似性を測定する指標で評価されています。DALL-E 3は従来のモデルと比較して優れたプロンプト応答性を持つことが確認されています。

性能の実験

評価の基準

DALL-E 3の性能は、オリジナルのキャプションと生成されたキャプションを用いて、データセットから生成された50,000枚の画像に基づいて評価されました。

DrawBenchの導入と影響

DrawBenchは、テキストから画像を生成するモデルの性能を評価するためのベンチマークツールです。このツールはDALL-E 3の評価において、

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

LLMにベートーヴェンなど特定の人物の行動や感情を模倣させる、イタコのような技術『Character-LLM（キャラクターLLM）』

Natureなどの論文約4,800本でGPT-4による査読能力が検証され、「LLMは査読にも有用」と結論

SNSでも発信中

企業と働き手を繋ぐマッチングサービスはこちらから

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録