Googleの研究者らは、画像をピクセルレベルで言語化する能力をもつLLM『PALM』開発しました。
実験の結果、「人が理解しやすい」内容で正確かつ詳細に画像を説明することができると確認されました。
– “Pixel Aligned Language Models”
■PALMのポイント
① ピクセルごとに言葉と関連づける
② 画像中のオブジェクトにおける関連キーワードを直接マッピングする
③ 画像内の位置関係を考慮できるようにする
■実験内容
① 画像・テキストのペアデータでモデルを訓練
② 実世界の写真を説明させるタスクで性能を評価
③ 従来のモデルと比較
■結果
① 画像内のオブジェクトを理解しやすい形で説明した
② 正確さや詳細さで従来のモデルより高いスコアを獲得した
このように「画像を説明する」言語モデルの能力が向上していくと、例えば視覚障害者支援などで役立つだろうとされています。
今後、さらなる実用性や多様性が期待されています。