Webページの見た目や使い勝手をLLMに診断させるプロンプト手法
本記事では、マルチモーダルLLMを活用してWebページの視覚的複雑さを評価するプロンプト手法の開発事例をご紹介します。
単純に「このページは複雑ですか?」と尋ねるだけでは、判断の精度が非常に低く、人間の評価と一致しないという課題があります。この問題を解決するため、人間の評価者を模倣した評価を行うプロンプト手法が開発されました。

背景
Webサイトでは、ページのデザイン改善が日々実施されています。たとえば広告の配置を変えたり、商品画像のサイズを調整したりと、さまざまなバリエーションが試されています。
このような状況で課題となるのが、「視覚的複雑さ」です。これは、ページを見た際にユーザーが感じる情報処理の負担のことを指します。ページに要素が詰め込みすぎていたり、色使いが派手すぎたりすると、ユーザーは必要な情報を見つけにくくなり、結果として購買意欲が下がってしまう可能性があります。
通常、この視覚的な使い勝手の評価には、主に二つの手法が用いられます。一つは、UXデザイナーや調査担当者といった専門家による目視での評価です。もう一つはA/Bテストと呼ばれる手法で、異なるデザインを実際のユーザーに提示し、どちらのバージョンがより高い購買行動につながるかを比較するものです。
しかし、専門家による評価は高い精度が期待できますが、すべてのページバリエーションをチェックするには時間もコストもかかりすぎます。一方、A/Bテストではユーザーの実際の行動を測定できるものの、「なぜ特定のデザインがうまく機能しなかったのか」といった視覚的な理由までは明らかにできません。
そこで注目されているのが、マルチモーダルLLMの活用です。テキストだけでなく画像も処理できるモデルを用いれば、Webページのスクリーンショットを見せることで、人間のように視覚的な評価が可能になるのではないかと期待されています。
とはいえ、課題があります。たとえば「ハルシネーション」と呼ばれる、実際とは異なる情報を生成してしまう問題があります。視覚的複雑さのように主観的な判断が求められる場合、この問題はさらに深刻になります。また、モデルがどのような基準で評価を行っているのかが不明確であり、その判断の根拠を理解しにくいという点も課題です。
そこで本記事では、モデル本体には手を加えず、プロンプトの設計を工夫することで評価精度を高めるアプローチに着目しました。モデルに段階的な分析プロセスを踏ませることで、人間に近い視点での評価を引き出すことを目指しています。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。


PAGE TOP