LLMは「読む」だけで視覚・聴覚を獲得

2025.05.262026.01.31

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

テキストのみで訓練されたAIでも、内部的に「画像と音声を理解する能力」を発達させることが明らかにされました。
つまり、AIは「読む」ことで、「見る」「聞く」能力のもとになる回路を獲得していた、とのことです。

これまでの常識では、
画像には画像用のAI、音声には音声用のAIを別々に作っていました。しかし今回スタンフォード大学の研究者らは「言語モデルひとつでいろんなことができるかもしれない」と示してくれました。

つまり、一から新しいAIを作らなくても、すでにある言語用AIを少しだけ調整すれば、さまざまなタスクに応用できる可能性があるということです。

実験では、AIの本体はほとんどそのままで、入力まわりのごく一部と出力だけを調整することで、「これは猫の写真」「これはクラシック音楽」といった分類ができるようになりました。

なお、AIのサイズが大きくなるほど、そのような能力がどんどん向上する一貫した傾向も確認されたそうです。

Large Language Models Implicitly Learn to See and Hear Just By Reading

著者: Prateek Verma, Mert Pilanci

所属: Stanford University

関連記事