次回の更新記事:良いREADMEを書けているかLLMで自動検証・改善する方…(公開予定日:2026年03月06日)

テキストで音楽を生成 MusicGen登場

音声・音楽(音声認識、TTS、音楽生成、音声対話)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Metaの研究者らは、音楽生成モデル『MusicGen』を開発し、ユーザーが好きな音楽を作成できるようデモを公開しました。

テキストプロンプト及び参考となる音楽ファイルを入力すると、入力に合わせた音楽が生成されます。

@ Jade Copet et al., “Simple and Controllable Music Generation”

論文によると、音楽生成は、長時間にわたる複雑な音の連続を扱う必要があり、モデル化は難しかったとのことです。
広い音域を扱い、高品質の音を得て、ハーモニーやメロディーを成立させるのは至難の業だと述べられています。
研究者らは今回、言語モデルを活用したモデル『MusicGen』でハードルを突破することを試みています。

■『MusicGen』のポイント
① テキストまたはメロディの入力に基づいて音楽を生成
② 単一のトランスフォーマー言語モデルを使用
③ 20K時間のライセンス付き音楽で訓練
③ 入力テキストと生成音楽の整合性は高く評価されている

■デモの使用方法
① Hugging Face Spaceページにアクセス
(Colabで拡張デモの実行も可能)
(またはGitHubのREADMEに従ってインストール)
② 「Describe your music」でプロンプト入力
③ 参考の音楽ファイルを添付(任意)
④ 音楽が生成されるため再生で確認

■注意点
① 音楽生成における細かな制御には限界がある
② 主に分類フリーのガイダンスに依存している
③ テキストや音声条件付けに関するデータ拡張の研究が必要
④ データセットが西洋音楽に偏っているかもしれない

なお、NeurIPS 2023というAI研究の国際会議に採択されたことも、デモの公開と共に発表されています。

📄 参照論文

論文情報と関連研究

著者: 著者:Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant 他

関連記事