AIDB Daily Papers
会話に寄り添うBGMを:日常会話からの音楽推薦ベンチマーク「DialBGM」
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- 日常会話の内容に合ったBGMを推薦するタスクを定義し、新しいベンチマークデータセットDialBGMを構築しました。
- 会話の内容から音楽の記述がない状況で適切なBGMを選ぶことは難しく、対話理解と音楽知識の融合が求められる新しい課題です。
- 様々なモデルを評価した結果、現行モデルは人間の判断に遠く及ばず、今後のBGM選択手法の発展にDialBGMが貢献すると期待されます。
Abstract
Selecting an appropriate background music (BGM) that supports natural human conversation is a common production step in media and interactive systems. In this paper, we introduce dialogue-conditioned BGM recommendation, where a model should select non-intrusive, fitting music for a multi-turn conversation that often contains no music descriptors. To study this novel problem, we present DialBGM, a benchmark of 1,200 open-domain daily dialogues, each paired with four candidate music clips and annotated with human preference rankings. Rankings are determined by background suitability criteria, including contextual relevance, non-intrusiveness, and consistency. We evaluate a wide range of open-source and proprietary models, including audio-language models and multimodal LLMs, and show that current models fall far short of human judgments; no model exceeds 35% Hit@1 when selecting the top-ranked clip. DialBGM provides a standardized benchmark for developing discourse-aware methods for BGM selection and for evaluating both retrieval-based and generative models.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: