GoogleのGeminiファミリー最新モデル「Gemini 1.5 Pro」1000万トークンでほぼ完璧な検索性能

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

Googleが公開した最新モデルGemini 1.5 Proは、長いコンテキストから細かい情報を探索して推論できる高効率なマルチモーダルモデルです。テクニカルレポートによると、最大1000万トークンまでのコンテキスト検索タスクでほぼ完璧な再現率を達成するとのことです。また、ロングコンテキストQA、長い動画QA、ロングコンテキストASR(自動音声認識)で最先端の性能を示しています。
さらに、200人未満の話者しかいないKalamang語を学習し、優れた品質で英語から翻訳可能とのこと。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照テクニカルレポート情報

はじめに

Googleの研究者らは以前からマルチモーダルモデルファミリーGeminiを公開しています。今回新たにリリースしたGemini 1.5 Proは、複数の長文書、数時間の動画、ほぼ5日分の音声を含む長いマルチモーダル入力の処理が可能になったと述べられています。

下記は、Gemini 1.5 Proがさまざまなモダリティ(テキスト、ビデオ、オーディオ)で、最大1000万トークンの「藁」の中で99.7%以上の「針」の再現率を達成したことを示す図です。






さらに従来のマルチモーダル能力と比較したところ、ほとんどのベンチマークでGemini 1.0 Proより優れた性能を発揮したとのことです。最先端のGemini 1.0 Ultraと比較しても、訓練計算量が大幅に少なく効率が高いにもかかわらず、ベンチマークの半数以上でより良い性能を示しています。

下記でその能力をさらに詳しく紹介します。

本記事を読むにはAIDBのアカウントが必要です。
アカウントの作成は無料ですが、記事の閲覧は有料の場合があります。



※ログイン/初回登録後、下記ボタンを押してください。


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP