研究者たちは、AIが「音を聞かずに音について考えることができるか」を考えています。
人間は、例えば「雷の音」と聞けば「ゴロゴロと大きな音」を頭の中で鳴らし、その結果「鳥の鳴き声より低くて重い音」といったことを考えられます。
現在のLLMには、そうした音の能力は欠けています。
表面的な言語データを多少持っていたとしても、推論の材料や方法が足りないのです。
そこで研究者たちは、LLMが音について考える際に、音の情報を頭に浮かばせるように訓練してみました。すると、LLMの音に関する理解力がしっかり向上しました。
つまり、LLMがまだ人間のような感覚的な理解に欠けている側面がある一方で、適切な方法で訓練すれば新しいモダリティも「想像」して推論できるようになるという話です。
📄 参照論文
AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
所属: Pohang University of Science and Technology, HJ AILAB, Korea Advanced Institute of Science and Technology