GPT-4Vの3D認識、座標系Promptで精度向上

2023.12.26

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4Vに3D物体の位置関係や寸法を認識させるためのビジュアルプロンプティング手法が検証されています。

報告によると、画像に3次元座標系を書き足すだけで、空間認識能力がシンプルに大きく向上するとの実験結果が出ています。

“3DAxiesPrompts: Unleashing the 3D Spatial Task Capabilities of GPT-4V”より

■検証に至る背景
1. GPT-4Vの空間認識能力は未知である
2. 位置関係やスケールの理解は応用上、重要である

→ビジュアルプロンプト手法を考案

■手法
3D物体の画像に3次元座標系を描くのみ
（ただしGPT-4Vが理解できるよう明確に）

■実験と結果
1. 本手法を用いて幾つかの空間認識タスクを実施した
2. 通常のGPT-4Vと性能を比較した
3. 位置や寸法を把握する能力が顕著に向上

Point（cloud）Reconstruction Taskでは、50%以上の精度向上が確認されています。

シンプルかつ当たり前に精度が上がると思える手法ですが、数値として効果が把握できたという点でも意義のある研究報告です。

注意点としては、完全な理解を保証するものではないこと、そして実験条件によって精度がばらつくことなどが挙げられています。

■参照情報

📎 論文を読む（arxiv.org）

こちらもどうぞ