GPT-4V vs Gemini: 視覚能力徹底比較と特性分析

2023.12.20

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4Vに対してGeminiの画像認識能力はどれほど性能が高いのか、さまざまなタスクで比較した実験結果が報告されました。

非常に多岐にわたるケーススタディを行った結果、両者の特性の違いが浮き彫りになってきています。
Geminiは画像とテキストの情報を統合する能力に長けているとのことです。

– “A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise”

研究者らは、GPT-4VとGeminiを比較するための数多くの実験の結果、現時点で以下のような結論を出しています。

■推論能力
① Geminiは多くの場合、GPT-4Vと同等かそれ以上の正確さを示す
② GeminiはGPT-4Vよりも知識が幅広いように見える

■応答のスタイル
① GPT-4Vは知覚タスクでより詳しい説明を行う
② 加えてGPT-4Vは認知タスクで段階的な推論を示す
③ 要素が多い画像において、Geminiは簡潔に答え、GPT-4Vは精密に答える
④ GPT-4Vは、よりプライバシーに気をつけている

■両者の課題
① オブジェクトの相対位置関係を把握する能力がまだ低い
② 文字、数字、幾何学形状などの認識能力に難がある
③ 問題に対する中間ステップと最終的な回答にずれがある

GPT-4Vは複雑なタスクに長けており、Geminiはビジュアルとテキスト情報の統合に長けている傾向があるとのことです。

なお、両者ともに発展途上のモデルであるため、一貫した結果を得られるものではない可能性が示唆されています。

■論文情報

📎 論文を読む（arxiv.org）

こちらもどうぞ