Googleが公開した最新モデルGemini 1.5 Proは、長いコンテキストから細かい情報を探索して推論できる高効率なマルチモーダルモデルです。テクニカルレポートによると、最大1000万トークンまでのコンテキスト検索タスクでほぼ完璧な再現率を達成するとのことです。また、ロングコンテキストQA、長い動画QA、ロングコンテキストASR(自動音声認識)で最先端の性能を示しています。
さらに、200人未満の話者しかいないKalamang語を学習し、優れた品質で英語から翻訳可能とのこと。
参照テクニカルレポート情報
- タイトル:Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
- URL:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
- 公式ブログ:https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
- 著者:Gemini Team, Google(著者多数)
はじめに
Googleの研究者らは以前からマルチモーダルモデルファミリーGeminiを公開しています。今回新たにリリースしたGemini 1.5 Proは、複数の長文書、数時間の動画、ほぼ5日分の音声を含む長いマルチモーダル入力の処理が可能になったと述べられています。
下記は、Gemini 1.5 Proがさまざまなモダリティ(テキスト、ビデオ、オーディオ)で、最大1000万トークンの「藁」の中で99.7%以上の「針」の再現率を達成したことを示す図です。
さらに従来のマルチモーダル能力と比較したところ、ほとんどのベンチマークでGemini 1.0 Proより優れた性能を発揮したとのことです。最先端のGemini 1.0 Ultraと比較しても、訓練計算量が大幅に少なく効率が高いにもかかわらず、ベンチマークの半数以上でより良い性能を示しています。
下記でその能力をさらに詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。