Amazonの研究者らは、LLMの視覚能力を使って「人間は画像をどんな側面から判断しやすいか」を分析しました。
その結果、人は何らかの画像に対して「ごちゃごちゃしているかどうか」(および、「シンプルかどうか」)という点に他の側面よりも強く反応することが分かりました。
広告、芸術、インテリアなどで一貫していたようです。
視覚を持つLLMに心理学や認知科学の原理(ゲシュタルトなど)に基づいて画像を評価させることでこのような分析ができるとのこと。
こうしたノウハウはウェブサイト設計やバリアフリー設計などに応用できる可能性があるそうです。
📄 参照論文
Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis