Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか

GPT-4Vに対してGeminiの画像認識能力はどれほど性能が高いのか、さまざまなタスクで比較した実験結果が報告されました。

非常に多岐にわたるケーススタディを行った結果、両者の特性の違いが浮き彫りになってきています。
Geminiは画像とテキストの情報を統合する能力に長けているとのことです。

参照論文情報

タイトル：A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

著者：Chaoyou Fu et al.（多数）

所属：Tencent Youtu Lab, Xiamen University, ECNU, USTC, Peking University, Shanghai AI Laboratory

URL：https://doi.org/10.48550/arXiv.2312.12436

GitHub：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

研究の背景

近年、人間のように複雑な情報を処理できるマルチモーダルAIの開発が進んでいます。マルチモーダルAIとは、異なる種類のデータ（例えばテキスト、画像、音声など）を理解し、組み合わせて処理するAIのことです。

現在、マルチモーダルAIの最先端としてGPT-4Vの存在があります。GPT-4Vは、言語と視覚情報を組み合わせたタスクで高いパフォーマンスを示すことで知られているモデルです。

一方、GPT-4Vに比肩する性能を持つとされる新たな多モーダルAIモデルGeminiが登場したことにより、どちらの性能が高いのか注目されるようになりました。

そこでテンセントなどの研究者らは、GPT-4VとGeminiの能力を客観的に評価し、それぞれのモデルの特性を理解することで、より洗練されたAIの開発に繋げようと考えました。なお、GPT-4VとGeminiに加えてSPHINXというマルチモーダルモデルも一緒に検証されています。

AIの基本的な認識能力

まずはモデルがデータをどのように処理し、理解するかの基本が確かめられました。

物体中心の認識

物体の空間位置関係やオブジェクトを数えたりなどの基本的なタスクがあります。しかしモデルは左右の概念など、単純な空間的方向性を理解することに苦労していることが示されています。

シーンレベルの認識

シーン全体を見る場合は、モデルは視覚的要素を可能な限り詳細に説明するように求められます。GPT-4Vは要素が密集している環境でも優れた性能を示しています。一方でビデオシーンの理解もテストされ、Geminiは異なるフレームからの情報を統合する能力を見せています。

視覚を超えた理解

なお、モデルは視覚があるだけでなく知識もあります。社会規範や物理法則に共通感覚を適用することで、見たものを理解する能力が高いのです。

発展的な認知能力

テキストが多く含まれるコンテンツ

Gemini、GPT-4V、そしてSPHINXはフローチャートの理解や表の解析において異なるアプローチを示しました。Geminiは高レベルのアイデアを簡潔に要約する能力に長けており、GPT-4Vは詳細な説明を提供します（が、ときどき間違いが見受けられました）。

抽象的な画像を読み解く力

抽象的な図や、Ravenの進行マトリックスのタスクにおいて、モデルは苦労していました。GPT-4Vは詳細な推論プロセスを示しましたが、最終的な予測は間違っていました。高度な関係性の理解と予測にはまだ課題があるようです。

科学問題の解決

GeminiとGPT-4Vは数学問題において優れた性能を示しました。しかし、

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。

※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
 プレミアム会員（記事の購読）について

■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

消費者向けGPUでも高性能GPUに近いパフォーマンスでLLMを動かす手法「PowerInfer」

LLMのRAG（外部知識検索による強化）をまとめた調査報告

マッチングサービスのお知らせ

AIDBとは

AIDBは、論文などの文献に基づいてAIの科学技術や市場にキャッチアップするためのサービスです。個人の研究や仕事探し、法人の調査や採用を支援します。2019年から運営しています。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録