【Facebook】クリエイティブなスケッチを生成するAIを開発したと発表（AI×アート論文解説）

最終更新日：2025/03/08

スケッチの創造性を高めるAI

スケッチは、有史以前からのコミュニケーションツールとしての役割から、今日広く普及したタッチスクリーンデバイスに至るまで、欠かすことのできない視覚的経験を得られるものです。
これまでのスケッチ関連のAIは、単純な線画から意味のある視覚情報を生み出したり、物体の特徴を捉えて人間が認識できるような最小限の描写を生成することに主に焦点を当ててきました。

このタスクにおける既存のデータセットのほとんどは、一般的な物体を模倣するために人間が描いたスケッチを含んでいます。
このようなAIは特定の描きたいものがある場合には有益ですが、創造性が求められるスケッチには用いることができないことが多いです。

スケッチにおいて書き手の創造性をかき立てるために、どのような研究が行われているのでしょうか。FacebookのVedanuj Goswamiら研究者の発表を紹介します。

研究者らは、一般的でないパーツを持つ動物のスケッチを生成するネットワークを構築することで、スケッチの創造性を刺激することを試みました。

▼論文情報

著者：Songwei Ge, Vedanuj Goswami, Lawrence Zitnick
タイトル：”Creative Sketch Generation”
arXiv
URL：DOI

スケッチにおける創造性の刺激

まずはVedanuj Goswamiらの研究におけるミッション・手法・結果をまとめました。

ミッション
スケッチ時の描き手の創造性を刺激する。

解決手法
一般的でないパーツを持つ動物のスケッチを生成するネットワークを構築した。

結果
定量・定性評価によって、創造性が高いと言えるスケッチを生成することに成功した。

ミッションから説明していきます。

（目的）描き手の創造性の刺激

本研究では、クリエイティブなスケッチに焦点を当てています。クリエイティブなスケッチを生成・解釈できるAIシステムは、描き手の創造性を刺激して、最終的な成果物を強化することが期待できます。
具体的なシナリオとしては、スケッチの描き始めを自動的に生成すること、描き手の部分的なスケッチに基づいて次のストロークや完成を提案すること、さらなるアイデアを刺激する可能性のあるスケッチの解釈をユーザーに提示することなどが挙げられます。

クリエイティブなスケッチに関するAIの構築は難しいです。スケッチは多様で複雑です。視覚的に珍しいと感じさせる描写であると同時に、認識できるものである必要があります。
また創造性は、美学やスタイルといった主観的な解釈があり、絶対的な指標がありません。

（手法）創造的なスケッチを生成できるAIの構築

Vedanuj Goswamiらは、創造的なスケッチのデータセットを作成し、それを用いてスケッチを生成するネットワークを構築しました。

データセットの収集

2つのデータセットは、Amazon Mechanical Turkで、スケッチ用のウェブインターフェイスを使って収集しました。被験者に創造的なスケッチを促すために、このインターフェイスを用いて以下の手順でスケッチを描いてもらいます。

1. キャンバス上のK個のキーポイントを結んで、ランダムな初期ストロークを自動生成する。
2. 被験者はキャンバスの好きな場所に目を追加する。
3. 最初のストロークと目が、鳥や任意の生物の創造的なスケッチにどのように組み込まれるかを視覚化する。
4. 被験者は鳥や生き物の一部分を一度に描くよう求められ、どの部分を描いているかをドロップダウンメニューで示す。
5. 自由にスケッチのタイトルを設定する。

「Creative Birds」では、鳥の一般的な7つのパーツ（頭、胴体、くちばし、尾、口、脚、翼）が選択肢に含まれています。「Creative Creatures」では、16のパーツ（前足、角、ヒレ、翼など）があり、陸生、水生、空の生き物を網羅しています。

スケッチの創造性と多様性に寄与するだけでなく、最初のランダムなストロークは制約を加え、スケッチ作成をより困難にします。

両方のデータセットでそれぞれ約1万枚のスケッチを集めました。
両データセットのスケッチのランダムな例を図1に示します。比較のために、既存の他のデータセットも示しています。

図１　既存のデータセットと、Creative Birds・Creative Creaturesのスケッチ

Vedanuj Goswamiらは、「Creative Birds」の100枚のスケッチと「QuickDraw」の100枚のスケッチを、それぞれ5人の被験者で比較する検証を行いました。その結果、67％の確率で「Creative Birds」のスケッチの方がクリエイティブであると評価されました。

ネットワーク

Vedanuj Goswamiらは、パーツの新しい外観を生成し、今まで見たことのない構成でパーツを合成することで、創造的なスケッチの生成にアプローチしました。また、創造的なスケッチは見た目の多様性が大きいですが、スケッチが個々のパーツに分解されると、この複雑さが大幅に軽減されます。

Vedanuj GoswamiらのアプローチであるDoodlerGANは、パーツを1つずつ順次生成します。各ステップでは、パーツと部分的なスケッチの外観が、人間のスケッチで観察された対応する分布から来ることを保証します。人間はスケッチの中で同じ順序でパーツを描くわけではなく、パターンが存在します。これを模倣し、DoodlerGANはパーツの順序を自動的に決定します。
具体的には、図3に示すように、DoodlerGANには「パーツ生成器」と「パーツ選択器」という2つのモジュールがあります。パーツ選択器は、部分スケッチが与えられたときに、次にどのパーツを描くかを予測します。パーツ生成器は、部分スケッチとパーツカテゴリが与えられると、パーツの外観と位置を生成します。

（結果）創造性のあるスケッチの生成に成功

結果、定量・定性的な評価から、DoodlerGANは創造性の高いスケッチが生成できるとわかりました。

評価のために、いくつかのネットワークとの比較を行いました。

・StyleGAN2 Unconditional
StyleGAN2は、DoodlerGANに使用されたものと同じハイパーパラメータとデータ増強設定を使用して訓練します。モード崩壊を回避するために、その識別器にミニバッチ識別層を追加します。これは、画像生成における最先端のアプローチです。

・StyleGAN2 Conditional
このアプローチは上述のものと同じですが、スケッチに最初のストローク（DoodlerGANと同じエンコーダを使ってエンコードされたもの）を用いるように条件付けしています。

・SketchRNN Unconditianal
本研究のデータセットで訓練されたSketchRNNモデルを使用します。これはスケッチ生成における最先端の技術です。Vedanuj Goswamiらは、アーキテクチャ（エンコーダ、デコーダ、潜在空間のサイズ、温度γ）を最適化し、ヒューリスティックな後処理で明らかな失敗事例を排除して、このアプローチをできるだけ提案データセットに適応させました。

・SketchRNN Conditional
このアプローチは上述のSketchRNNと同じですが、推論中に最初の数点とペンの状態をランダムな初期ストロークに基づいて固定します。これらは、スケッチの連続的な生成を続けるための入力として与えられます。

・Percentage-based
このアプローチは DoodlerGAN と同じですが、パーツを使用する代わりに、スケッチを 20% のチャンクに分割しそれらを「パーツ」として使用します。このアプローチと比較することで、意味的に用いられるパーツの有効性を実証することができます。

ランダムに選ばれた各アプローチから生成された画像を図3に示します。

StyleGAN2の生成器では、一般的な鳥の輪郭を判別できますが、細部の構築は欠けています。
SketchRNNでは、生成された目を判別できますが、その後のストロークは一貫したスケッチを形成していません。
DoodlerGANは明らかに高品質なスケッチを生成し、スケッチの異なる部分が明確に識別できます。

定量評価
先行研究で用いられている2つの指標、実画像と生成画像の分布間の距離を示す FID と生成画像の多様性を示す GD を用います。
表1では、DoodlerGANが他のアプローチと比較して、生成画像の多様性を維持しつつ、最良のFIDスコアを得ていることがわかります。

また、2つの追加指標を紹介します。
1つ目は、特性スコア（CS）です。生成されたスケッチが、訓練された推測モデルによって、Creative BirdsまたはCreative Creaturesに分類される頻度をチェックします。スコアが高いほど、つまりスケッチが鳥や生き物として認識されているほど、スケッチの品質は高くなります。
2つ目は、意味的多様性スコア（SDS）です。スケッチが表現するさまざまな生物カテゴリーの観点から、どれだけ多様性があるかを表しています。

表1では、DoodlerGANが両方のメトリクスで既存のアプローチよりも優れていることがわかります。実際、DoodlerGANは、Creative Birdsデータセットにおいて、人間のスケッチよりも優れています。この傾向は人間の評価でも同じです。

定性評価
生成画像や創造的な成果物を自動で評価することは、いまだに困難なタスクです。そこで、Amazon Mechanical Turk（AMT）を用いて人間による評価を行いました。
具体的には、DoodlerGANによって生成されたスケッチと、異なるアプローチによって生成されたスケッチのペアを被験者に見せ、以下の質問を行いました。

(1)どちらのスケッチがよりクリエイティブか？
(2)どちらのスケッチがより鳥や生き物に見えるか？
(3)どちらのスケッチがより好ましいか？
(4)どちらのスケッチが人間が描いたものである可能性が高いか？
(5)どちらのスケッチが最初のストロークと他の部分がよく統合されているか？

それぞれのアプローチから得られた200枚のランダムなスケッチを評価しました。図4は、DoodlerGANが競合するアプローチよりも好まれる割合を示しています。
Creative Birdsでは、5つの質問すべてにおいて、DoodlerGANが5つのベースラインを有意に上回りました。また、QuickDrawだけでなく、Creative Birdsのデータセットからも、ほとんどの次元で、人間が描いた本物のスケッチを上回りました。