次回の更新記事:ハルシネーションは「AIのせい」だけではなく「クエ…(公開予定日:2026年03月05日)
AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

GoogleのGeminiファミリー最新モデル「Gemini 1.5 Pro」1000万トークンでほぼ完璧な検索性能

2024.03.18
深堀り解説

Googleが公開した最新モデルGemini 1.5 Proは、長いコンテキストから細かい情報を探索して推論できる高効率なマルチモーダルモデルです。テクニカルレポートによると、最大1000万トークンまでのコンテキスト検索タスクでほぼ完璧な再現率を達成するとのことです。また、ロングコンテキストQA、長い動画QA、ロングコンテキストASR(自動音声認識)で最先端の性能を示しています。
さらに、200人未満の話者しかいないKalamang語を学習し、優れた品質で英語から翻訳可能とのこと。

参照テクニカルレポート情報

はじめに

Googleの研究者らは以前からマルチモーダルモデルファミリーGeminiを公開しています。今回新たにリリースしたGemini 1.5 Proは、複数の長文書、数時間の動画、ほぼ5日分の音声を含む長いマルチモーダル入力の処理が可能になったと述べられています。

下記は、Gemini 1.5 Proがさまざまなモダリティ(テキスト、ビデオ、オーディオ)で、最大1000万トークンの「藁」の中で99.7%以上の「針」の再現率を達成したことを示す図です。

さらに従来のマルチモーダル能力と比較したところ、ほとんどのベンチマークでGemini 1.0 Proより優れた性能を発揮したとのことです。最先端のGemini 1.0 Ultraと比較しても、訓練計算量が大幅に少なく効率が高いにもかかわらず、ベンチマークの半数以上でより良い性能を示しています。

下記でその能力をさらに詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

  • 一部記事の閲覧
  • 研究紹介短信ライブラリの基本機能

プレミアム会員の特典

  • 全過去記事の無制限閲覧
  • 専門家による最新リサーチ結果を記事で購読(平日毎日更新)
  • 日本語検索対応の新着AI論文データベース
  • 研究紹介短信ライブラリの高度な機能を開放
  • 記事内容質問AIを使用可能に

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

記事検索

年/月/日
年/月/日

関連記事