LLMで解明：人が画像から得る第一印象

2025.04.19

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Amazonの研究者らは、LLMの視覚能力を使って「人間は画像をどんな側面から判断しやすいか」を分析しました。

その結果、人は何らかの画像に対して「ごちゃごちゃしているかどうか」（および、「シンプルかどうか」）という点に他の側面よりも強く反応することが分かりました。
広告、芸術、インテリアなどで一貫していたようです。

視覚を持つLLMに心理学や認知科学の原理（ゲシュタルトなど）に基づいて画像を評価させることでこのような分析ができるとのこと。

こうしたノウハウはウェブサイト設計やバリアフリー設計などに応用できる可能性があるそうです。

Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis

著者: Shravan Chaudhari, Trilokya Akula, Yoon Kim, Tom Blake

関連記事