
不良品の写真を5枚ほど添えて、新しい画像が良品か不良品かを判定させる。社内資料を数枚見せて、似たタイプの書類かどうかを仕分けてもらう。動物の写真を3枚見せれば、珍しい種でも当ててくれる。
画像と文字の両方を扱えるマルチモーダルLLMに対して、こうした使い方を試している方も多いと思います。手軽に使える生成型のマルチモーダルLLMが揃ってきたなかで、「数枚見せれば学んでくれる」という期待は、もはや特別なものではなくなりました。
ただ、ここで一度立ち止まってみたい疑問があります。本当に画像から「学んで」いるのか。それとも、添えた文字の方を読んでいるだけなのか。本記事では、画像few-shot学習をめぐる二つの異なる切り口を横断しながら、期待と実態のズレ、そして実務で取り入れるときの設計判断を整理していきます。