GPT-4で高品質グラフィックデザインを自動生成

2023.11.29

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4を活用してユーザーの意図を汲み取り高品質なグラフィックデザインを生成するシステム『COLE』が開発されました。

DALL·E3との比較でも優れた結果を示すと結論づけられています。

Microsoftと北京大学の研究チームによる発表です。

@ Peidong Jia et al., “COLE: A Hierarchical Generation Framework for Graphic Design”

グラフィックデザインには創造性や革新性などが必要であり、自動的な生成は難しいとされてきました。
テキストを画像で間違えて生成したり、編集が複雑であったり、プロンプトの工夫が煩雑であったのも要因です。

今回研究者らは、階層的なフレームワーク『COLE』を作成し、ユーザーの簡単な指示から高品質なグラフィックデザインを生成できる仕組みづくりに挑戦しました。

■『COLE』システムのポイント
① LLM+LMM（大規模マルチモーダルモデル）+拡散モデル
② テキスト指示からなるデザイン生成タスクを、単純なサブタスクに分解
③ 100,000枚以上の高品質なグラフィックデザイン画像からなるデータセットで訓練

■『COLE』がカバーするタスク例
① 指示からJSONの生成
② 背景画像の生成
③ オブジェクト画像とマスクの生成
④ タイポグラフィの生成
⑤ レンダリング

■ユーザーインタフェースの特徴
オブジェクトのサイズ変更、再配置、交換、フォントタイプとサイズの自由な変更などが可能

■性能評価
デザイン、レイアウト、コンテンツ、グラフィック、イメージ、革新性といった側面から性能が検証された

ただし論文によるとCOLEシステムにはまだ伸びしろもあり、今後の改善も見込まれているとのことです。

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ