次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)

Gemini Proの言語能力をGPTと比較評価

評価・ベンチマーク(モデル評価、ベンチマーク、性能測定)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

カーネギーメロン大学などの研究者らは、Gemini Proの言語能力をGPT-3.5およびGPT-4と比較しました。

Geminiは、非英語テキスト生成や長く複雑な推論などに関してはGPT-3.5を超える場面もあり、その他の能力は肉薄しているとのことです。

– “An In-depth Look at Gemini’s Language Abilities”

■研究のポイント
① GeminiとGPTシリーズを客観的に比較する
② 実験結果の再現性を示す
③ Geminiの強みと弱みを知ること

■実験方法
① 主に言語能力を調べる
② 10のデータセットを使用
③ 様々なタスクを実行させる
(知識のQA/推論/数学/コード生成など)

■実験結果
① Gemini Proは、GPT-3.5に多くのタスクでわずかに劣る
② ただし、非英語テキストの生成や長く複雑な推論では優れた性能を示した
③ 課題は、数学能力、そして選択肢式問題の順序に対する感度
(選択肢の順序によって回答が変わる)

なお著者らは、「Geminiのコンテンツフィルタリングが一部のタスクに対する性能を落としているのではないか」とも考えています。

📄 参照論文

■論文情報

著者: 著者:Syeda Nahida Akter, Zichun Yu, Aashiq Muhamed, Tianyue Ou, Alex Bäuerle 他

関連記事