テキストで音楽を生成 MusicGen登場

2023.11.13

音声・音楽（音声認識、TTS、音楽生成、音声対話）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Metaの研究者らは、音楽生成モデル『MusicGen』を開発し、ユーザーが好きな音楽を作成できるようデモを公開しました。

テキストプロンプト及び参考となる音楽ファイルを入力すると、入力に合わせた音楽が生成されます。

@ Jade Copet et al., “Simple and Controllable Music Generation”

論文によると、音楽生成は、長時間にわたる複雑な音の連続を扱う必要があり、モデル化は難しかったとのことです。
広い音域を扱い、高品質の音を得て、ハーモニーやメロディーを成立させるのは至難の業だと述べられています。
研究者らは今回、言語モデルを活用したモデル『MusicGen』でハードルを突破することを試みています。

■『MusicGen』のポイント
① テキストまたはメロディの入力に基づいて音楽を生成
② 単一のトランスフォーマー言語モデルを使用
③ 20K時間のライセンス付き音楽で訓練
③ 入力テキストと生成音楽の整合性は高く評価されている

■デモの使用方法
① Hugging Face Spaceページにアクセス
（Colabで拡張デモの実行も可能）
（またはGitHubのREADMEに従ってインストール）
② 「Describe your music」でプロンプト入力
③ 参考の音楽ファイルを添付（任意）
④ 音楽が生成されるため再生で確認

■注意点
① 音楽生成における細かな制御には限界がある
② 主に分類フリーのガイダンスに依存している
③ テキストや音声条件付けに関するデータ拡張の研究が必要
④ データセットが西洋音楽に偏っているかもしれない

なお、NeurIPS 2023というAI研究の国際会議に採択されたことも、デモの公開と共に発表されています。

📄 参照論文

論文情報と関連研究

著者: 著者：Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant 他

📎 論文を読む（arxiv.org）

X（Twitter）で見る

テキストで音楽を生成 MusicGen登場

📄 参照論文

こちらもどうぞ

🔒 マルチモーダルLLMにおける幻覚（ハルシネーション）の原因と対策　クリエイティブでの活用も推奨　AWSなどが網羅的に調査

🔒 AIチューターが人間授業を超えた日と、成績を落とした日

📄 参照論文

こちらもどうぞ

🔒 マルチモーダルLLMにおける幻覚（ハルシネーション）の原因と対策 クリエイティブでの活用も推奨 AWSなどが網羅的に調査

🔒 AIチューターが人間授業を超えた日と、成績を落とした日

🔒 マルチモーダルLLMにおける幻覚（ハルシネーション）の原因と対策　クリエイティブでの活用も推奨　AWSなどが網羅的に調査