GPT-4Vのゼロショット視覚認識能力を徹底検証

2023.12.03

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4の視覚的な認識能力を広く網羅的に調べた研究報告が行われ、結論として「かなり多くのタスクで優秀であることが分かったが、動きや時間の流れに対する理解にはまだ課題がある」とのことです。

シドニー大学やBaidu（バイドゥ、百度）などの研究者らによる発表です。

– “GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?”

論文によると、これまでGPT-4の視覚認識能力について、広範囲かつ網羅的な評価はあまり行われていません。
要するに、GPT-4Vがどれほどいい仕事をするかを徹底的に見た研究はないのではないか、とのことです。

そこで研究者たちは、複数のデータセットを使ってGPT-4におけるゼロショット視覚機能をしっかりと検証することを試みました。

■研究デザイン
① 16種類のビジュアルデータセットを使用
（画像、動画、点群の様々なタスクを含む）
② GPT-4生成の説明文をCLIPで変換
③ 類似度スコアから予測の精度を測定

■実験結果
① GPT-4生成の説明文がCLIPの基準を大半で上回る
② 動画の理解においても大きく優位性を見せる
③ ただし時間的モデリングが重要なデータセットでは性能に限界もある

■結果の考察
① 大半のタスクで優秀であり、動画理解でも精度が高い
② 今後は、物体の動きや時間的な情報をもっと考慮できるようになることが期待される
③ プロンプトの設計も重要であり、GPT自身により生成されるプロンプトが最適な場合もある

今後はさらに大規模な定量的分析と、他のマルチモーダルモデルに対して同様の調査を行う予定とのことです。

なお研究者らは、”世界は我々の思考の産物である。思考を変えないと、世界も変わらない”という考え方に基づいてこのような調査を行っているそうです。

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ