「DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか?」に対するOpenAIの論文が発表されました。

   
重要なお知らせ
AIスキル人材と企業をつなぐマッチングサービス「AIDB HR」を開始しました!
仕事を探す方はこちら、人材を探す企業の方はこちらからご利用ください。

結論としては、GPT-4で訓練したハイレベルな画像キャプショナーが「人間が自然に使用する言葉」で説明文を理解できるのがポイントとのことです。

@ James Betker et al., “Improving Image Generation with Better Captions”


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

従来の画像生成AIは、テキストに含まれるユーザーの指示を読み取るのが難しいのが大きな課題でした。
画像生成AIに上手く意図を伝えるためのプロンプト技術がユーザー間でシェアされてきましたが、複雑な体系になっていました。

そこでOpenAIなどの研究者らは、高度な画像キャプションに特化した訓練データでモデルの学習を行い、プロンプトに従う能力を向上させました。その結果生まれたのがDALL-E 3です。

※本稿は論文の簡単な紹介記事です。

DALL-E 3のフレームワーク

フレームワークは以下のとおりです。

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP