LLMで音楽生成 MIDI直接出力で高速化

2025.11.082026.01.31

音声・音楽（音声認識、TTS、音楽生成、音声対話）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

MITの研究者らは、言葉で指示するとMIDI形式の音楽を生成できる言語モデル『MIDI-LLM』を開発。
「こういう音楽を作って」と伝えると直接音楽データを生成。これは統一規格です（楽器に転送できる）。

面白いことに、「もともとある言語モデルに音楽の知識を追加する」アプローチを取っています。
一つの音符を「開始時刻」「長さ」「楽器・音高」の3つの情報で表現し、これを言語モデルに教え込んでいます。

こうした工夫により、指示に忠実な音楽を生成できるように、しかも生成速度が大幅に速くなったそうです。

この技術はいわば「Text-to-MIDI」と呼ばれており、編集の柔軟さが評価されています。

実際に音楽を生成できるウェブページが公開されています。試してみてはいかがでしょうか。

MIDI-LLM: Adapting Large Language Models for Text-to-MIDI Music Generation

著者: Shih-Lun Wu, Yoon Kim, Cheng-Zhi Anna Huang

所属: MIT

こちらもどうぞ