GPT-4Vの視覚理解を劇的向上Set-of-Mark

2023.10.18

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4V特化の最新手法『Set-of-Mark（SoM）』が考案されました。

セグメント＆プロンプトで画像内のどこに集中するかを教えると、GPT-4Vがより正確に解釈ができるとの検証結果です。

Microsoftなどの研究グループによる発表です。
@ Jianwei Yang et al., “Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V”

GPT-4Vは細かな調整能力が弱いと考えられています。
現存のプロンプト手法はまだ探求が足りておらず、多くのオブジェクトや領域に対応できないという課題があります。

そこで研究者らはプロンプトによって画像領域にマークを追加する手法『Set-of-Mark（SoM）』を開発＆検証しました。

■『Set-of-Mark（SoM）』の方法論
① 画像を意味的に意味のある領域に分割する
② 各領域に識別可能なマーク（数字、アルファベット、マスク、ボックスなど）をオーバーレイする

■性能の検証
① 複数の画像セグメンテーションモデルを用いて、画像を領域に分割
② SoMを用いたGPT-4Vと、通常のGPT-4Vを比較

■検証結果
① SoMを用いたGPT-4Vは、視覚的なタスクでの性能が大幅に向上した
② RefCOCOgというデータセットで、既存の最先端モデルをゼロショット設定で上回った

■実装方法＆使い方
① 画像セグメンテーションモデルで画像を領域に分割
② 分割された領域にマークをオーバーレイして、GPT-4Vに入力
※なお、セグメンテーションでは “SAM” が非常に汎用的で性能の高い代表的なモデルの一つです。

□注意点
① マークの種類や位置によっては、GPT-4Vが混乱することもありえる
② 実世界の応用においては、テキストプロンプト戦略を複数ラウンドの対話で組み合わせることが有用

□プロンプト例
（あらかじめ画像をセグメンテーションし数字などをマークして入力）
ユーザー：この画像の3番には何がありますか？
GPT-4V：画像に表示されている「3」とラベル付けされたアイテムは、〜〜です。
ユーザー：3番の〜〜を2番に〜〜してもいいですか？
GPT-4V：はい、画像に基づいて、3番に表示されている〜〜は〜〜であり、2番の〜〜に〜〜するのは有効です。

上記のようなやり取りによって、より正確な対話が可能です。なお、応用例としては料理の手順やDIYの作業工程などを質問する際などが考えられます。

📄 参照論文

論文情報と関連研究

📎 論文を読む（arxiv.org）

X（Twitter）で見る

GPT-4Vの視覚理解を劇的向上Set-of-Mark

📄 参照論文

こちらもどうぞ

🔒 CoT（思考の連鎖）は数学や論理で劇的に性能を向上させる一方、常識や知識のタスクでほとんど効果がない

🔒 LLMベースの万能エンジニアを構築する『OpenHands（旧OpenDevin）』プラットフォーム