次回の更新記事:誤解を招きやすいAI用語6選、技術語なのに揺れる意味(公開予定日:2026年04月30日)
AIDB Daily Papers

スケッチだけでは不十分?マルチモーダルLLMにおける意図理解のための発話付きスケッチの探求

原題: When Drawing Is Not Enough: Exploring Spontaneous Speech with Sketch for Intent Alignment in Multimodal LLMs
著者: Weiyan Shi, Dorien Herremans, Kenny Tsu Wei Choo
公開日: 2026-04-13 | 分野: LLM 画像生成 マルチモーダル データセット デザイン AI 自然言語処理 ヒューマンコンピュータインタラクション インタラクション スケッチ

※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。

ポイント

  • 本研究では、初期デザイン段階における発話とスケッチを同時記録したデータセットTalkSketchDを構築した。
  • このデータセットを用いて、マルチモーダルLLMがスケッチのみよりも発話と組み合わせることで、よりデザイナーの意図を理解できるか検証した。
  • 実験の結果、発話を加えることで生成画像の意図一致度が向上し、初期デザインにおけるMLLMの能力向上が示唆された。

Abstract

Early-stage design ideation often relies on rough sketches created under time pressure, leaving much of the designer's intent implicit. In practice, designers frequently speak while sketching, verbally articulating functional goals and ideas that are difficult to express visually. We introduce TalkSketchD, a sketch-while-speaking dataset that captures spontaneous speech temporally aligned with freehand sketches during early-stage toaster ideation. To examine the dataset's value, we conduct a sketch-to-image generation study comparing sketch-only inputs with sketches augmented by concurrent speech transcripts using multimodal large language models (MLLMs). Generated images are evaluated against designers' self-reported intent using a reasoning MLLM as a judge. Quantitative results show that incorporating spontaneous speech significantly improves judged intent alignment of generated design images across form, function, experience, and overall intent. These findings demonstrate that temporally aligned sketch-and-speech data can enhance MLLMs' ability to interpret user intent in early-stage design ideation.

Paper AI Chat

この論文のPDF全文を対象にAIに質問できます。

質問の例:

AIチャット機能を利用するには、ログインまたは会員登録(無料)が必要です。

会員登録 / ログイン

💬 ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

関連するAIDB記事