次回の更新記事:LLMに「もっと読みやすくして」とリファクタリングを…(公開予定日:2026年03月02日)

MLLM性能を徹底比較:Gemini Pro vs GPT-4

画像・Vision(画像認識、VLM、マルチモーダル、OCR)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Gemini ProやGPT-4など各種LLMのマルチモーダル(テキスト/コード/画像/動画)能力について、網羅的な調査が実施されています。

非常に多岐にわたる膨大なケーススタディの結果、オープンソースモデルが優秀な性能を見せるいくつかの場面も明らかにされました。

“From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities”より

以下は報告内容の抜粋です。

■調査対象のLLM

– 商用モデル:Gemini Pro / GPT-4
– オープンソースモデル:Llama-2-70B / Mixtral-8x7B / LLaVA / Qwen-VL / LAMM / VideoChat

■主な発見

1. テキスト処理:GPT-4がGemini Proを含む他モデルより大きく優れる

2. 多言語能力:Gemini ProがGPT-4を含む他モデルを凌駕する

3. 複雑な数学能力:GPT-4が比較的優れ、Gemini Proはオープンソースモデルに近い

4. 専門的な知識:Gemini Proは表面的な理解にとどまる場合が多くみられる

5. コードの信頼性:Llama-2-70BがGemini Proに対して優位性を見せる

6. 画像の理解:全体的にどのモデルも優秀だが、OCR性能には改善の余地がある
(しかし複数の画像を関係性の観点で分析するのはまだ苦手)

7. 動画の理解:動画理解に特化したオープンソースモデルはGemini ProやGPT-4を凌駕している

📄 参照論文

参照情報:

著者: – 論文タイトル:From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities

関連記事