GPT-4VでUIをコード変換！高精度プロンプト

2024.03.06

コード生成（プログラム生成、ソフトウェア開発支援、バグ修正）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

スタンフォード大・ジョージア工科大・マイクロソフト・DeepMindの研究者らは共同で、スクリーンショットからHTMLとCSSのコードをGPT-4Vなどで生成するプロンプト手法を考案しました。

さらに本タスクでGemini Proに匹敵する新しいオープンソースモデルも開発されました。

“Design2Code: How Far Are We From Automating Front-End Engineering?”

■プロンプト手法の実験の結果
– GPT-4VとGemini Proで有効だった
– 生成物の49%が元のページと置き換え可能
– 64%が元より良いデザインと評価された

■プロンプト手法
スクリーンショットとともに、ページソースからテキスト要素を抜き出して下記のように指示を出します。

※日本語訳版テンプレートの例

あなたはHTMLとCSSに精通したエキスパートのウェブ開発者です。私はウェブページのスクリーンショットを提供します。あなたの仕事は、提供されたウェブサイトを再現する単一のHTMLファイルを返すことです。以下の点に注意してください:

– CSSコードはすべてHTMLファイル内に含めてください。
– 外部ファイルへの依存関係を想定しないでください。
– 動的な相互作用のためのJavaScriptは含める必要はありません。
– 要素のサイズ、テキスト、位置、色、および全体的なレイアウトに注意を払ってください。

HTML+CSSファイルのコンテンツで応答してください。

[ここに抽出したテキスト要素を追加]

■オープンソースモデルについて
研究チームが新たに開発したDesign2Code-18Bは、ウェブデザインのスクリーンショットからHTMLとCSSのコードを直接生成するタスク (Design2Codeタスク) において商用モデルのGemini Pro Visionと同等の性能を達成したとのこと。

論文情報

📎 論文を読む（arxiv.org）

こちらもどうぞ