「DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか?」に対するOpenAIの論文が発表されました。

   
★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。
★コンサルティングサポート(調査・研修・開発支援)をご希望の方はお問合せください。

結論としては、GPT-4で訓練したハイレベルな画像キャプショナーが「人間が自然に使用する言葉」で説明文を理解できるのがポイントとのことです。

@ James Betker et al., “Improving Image Generation with Better Captions”


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

従来の画像生成AIは、テキストに含まれるユーザーの指示を読み取るのが難しいのが大きな課題でした。
画像生成AIに上手く意図を伝えるためのプロンプト技術がユーザー間でシェアされてきましたが、複雑な体系になっていました。

そこでOpenAIなどの研究者らは、高度な画像キャプションに特化した訓練データでモデルの学習を行い、プロンプトに従う能力を向上させました。その結果生まれたのがDALL-E 3です。

※本稿は論文の簡単な紹介記事です。

DALL-E 3のフレームワーク

フレームワークは以下のとおりです。

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。







■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP