音を「想像」するLLM、聴覚推論を強化

2025.09.252026.01.31

音声・音楽（音声認識、TTS、音楽生成、音声対話）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

研究者たちは、AIが「音を聞かずに音について考えることができるか」を考えています。

人間は、例えば「雷の音」と聞けば「ゴロゴロと大きな音」を頭の中で鳴らし、その結果「鳥の鳴き声より低くて重い音」といったことを考えられます。

現在のLLMには、そうした音の能力は欠けています。
表面的な言語データを多少持っていたとしても、推論の材料や方法が足りないのです。

そこで研究者たちは、LLMが音について考える際に、音の情報を頭に浮かばせるように訓練してみました。すると、LLMの音に関する理解力がしっかり向上しました。

つまり、LLMがまだ人間のような感覚的な理解に欠けている側面がある一方で、適切な方法で訓練すれば新しいモダリティも「想像」して推論できるようになるという話です。

AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

著者: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee

所属: Pohang University of Science and Technology, HJ AILAB, Korea Advanced Institute of Science and Technology

関連記事