GPT-4VなどのマルチモーダルLLMで画像を分析する際、画像に「ドットマトリックス」を重ね合わせるだけで認識精度が大きく向上することが報告されています。
“Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models”
■研究の背景
LLMがマルチモーダル対応する中、画像内容に基づく複雑な推論の精度を上げる工夫が試みられています。
プロンプトエンジニアリングも有効ですが、普遍性に欠けます。
■今回のアイデア
– 画像に一定間隔のドットマトリックスを重ねる
– 各ドットに多次元の座標を割り当てる
– 座標情報をテキストプロンプトにも含める
– LLMは座標を手がかりに高度に画像認識する
■実験結果
– 11のベンチマークで手法の有効性が確認された
(空間推論、構成的推論、幻覚など)
– CoTより平均9.6ポイントの性能向上を達成した
なおマトリックスサイズや座標の色などが性能に影響を与えるとのことです。
(そのため、ケースに応じて調整する必要性も示唆されています)