Metaの研究者らは、音楽生成モデル『MusicGen』を開発し、ユーザーが好きな音楽を作成できるようデモを公開しました。
テキストプロンプト及び参考となる音楽ファイルを入力すると、入力に合わせた音楽が生成されます。
@ Jade Copet et al., “Simple and Controllable Music Generation”
論文によると、音楽生成は、長時間にわたる複雑な音の連続を扱う必要があり、モデル化は難しかったとのことです。
広い音域を扱い、高品質の音を得て、ハーモニーやメロディーを成立させるのは至難の業だと述べられています。
研究者らは今回、言語モデルを活用したモデル『MusicGen』でハードルを突破することを試みています。
■『MusicGen』のポイント
① テキストまたはメロディの入力に基づいて音楽を生成
② 単一のトランスフォーマー言語モデルを使用
③ 20K時間のライセンス付き音楽で訓練
③ 入力テキストと生成音楽の整合性は高く評価されている
■デモの使用方法
① Hugging Face Spaceページにアクセス
(Colabで拡張デモの実行も可能)
(またはGitHubのREADMEに従ってインストール)
② 「Describe your music」でプロンプト入力
③ 参考の音楽ファイルを添付(任意)
④ 音楽が生成されるため再生で確認
■注意点
① 音楽生成における細かな制御には限界がある
② 主に分類フリーのガイダンスに依存している
③ テキストや音声条件付けに関するデータ拡張の研究が必要
④ データセットが西洋音楽に偏っているかもしれない
なお、NeurIPS 2023というAI研究の国際会議に採択されたことも、デモの公開と共に発表されています。