動画をもとに音楽を生成するフレームワーク『Video2Music』が登場しました。
膨大な学習データをもとに、作品の特徴に合うオーディオを作り出すツールです。
マルチモーダルのトランスフォーマーアーキテクチャが採用されています。
@ Jaeyong Kang et al., “Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model”
これまでの音楽生成モデルは、意外にもビデオに直接合わせて創作を行うアプローチはあまり研究されていませんでした。
そこで研究者らは、ミュージックビデオを大規模に学習させて『Video2Music』モデルを開発しました。
■『Video2Music』のポイント
① 動画に合う音楽を自動で作るシステム
② 感情を理解し情緒や内容に合わせた音楽生成を行う
③ 動画と音楽の感情がうまく合っているかをチェックする仕組みも備える
④ 後処理で音の強さやリズムが動画に合うように調整
⑤ 音の大きさやリズムの密度を決めるための自動推定ツールも導入
⑥ 自然に聞こえるようにするために、特定のリズムパターンで音符を配置
■性能の評価結果
① 既存の音楽生成システムと比較
② 定量的に、Video2Musicが動画に合った音楽を生成すると示唆された
③ 人の感性による評価でも優れた結果が出ている
■注意点
① 訓練に使用されたMuVi-Syncという新しいデータセットも公開されている
② 他の種類の動画や音楽に対する汎用性についてはさらなる検証が必要
③ 感性に基づく性能評価は客観的指標とのバランスが重要
④ アプリに組み込む際はインタフェースも重要