結論としては、GPT-4で訓練したハイレベルな画像キャプショナーが「人間が自然に使用する言葉」で説明文を理解できるのがポイントとのことです。
@ James Betker et al., “Improving Image Generation with Better Captions”
従来の画像生成AIは、テキストに含まれるユーザーの指示を読み取るのが難しいのが大きな課題でした。
画像生成AIに上手く意図を伝えるためのプロンプト技術がユーザー間でシェアされてきましたが、複雑な体系になっていました。
そこでOpenAIなどの研究者らは、高度な画像キャプションに特化した訓練データでモデルの学習を行い、プロンプトに従う能力を向上させました。その結果生まれたのがDALL-E 3です。
※本稿は論文の簡単な紹介記事です。
DALL-E 3のフレームワーク
フレームワークは以下のとおりです。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。