AIDB Daily Papers
スケッチだけでは不十分?マルチモーダルLLMにおける意図理解のための発話付きスケッチの探求
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 本研究では、初期デザイン段階における発話とスケッチを同時記録したデータセットTalkSketchDを構築した。
- このデータセットを用いて、マルチモーダルLLMがスケッチのみよりも発話と組み合わせることで、よりデザイナーの意図を理解できるか検証した。
- 実験の結果、発話を加えることで生成画像の意図一致度が向上し、初期デザインにおけるMLLMの能力向上が示唆された。
Abstract
Early-stage design ideation often relies on rough sketches created under time pressure, leaving much of the designer's intent implicit. In practice, designers frequently speak while sketching, verbally articulating functional goals and ideas that are difficult to express visually. We introduce TalkSketchD, a sketch-while-speaking dataset that captures spontaneous speech temporally aligned with freehand sketches during early-stage toaster ideation. To examine the dataset's value, we conduct a sketch-to-image generation study comparing sketch-only inputs with sketches augmented by concurrent speech transcripts using multimodal large language models (MLLMs). Generated images are evaluated against designers' self-reported intent using a reasoning MLLM as a judge. Quantitative results show that incorporating spontaneous speech significantly improves judged intent alignment of generated design images across form, function, experience, and overall intent. These findings demonstrate that temporally aligned sketch-and-speech data can enhance MLLMs' ability to interpret user intent in early-stage design ideation.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: