AIDB Daily Papers
Nemotron 3 Ultra:エージェント推論のためのオープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル
※ 日本語タイトル・ポイントはAIによる自動生成です。正確な内容は原論文をご確認ください。
ポイント
- Nemotron 3 Ultraは、5500億パラメータを持つMixture-of-ExpertsハイブリッドMamba-Attention言語モデルであり、20兆トークンで事前学習された。
- 本研究では、LatentMoE、Multi Token Prediction、NVFP4、multi-environment RLVR、MOPD、reasoning budget controlといった複数の新技術を導入し、既存モデルと比較して約6倍の推論スループットと同等の精度を達成した。
- 100万トークンのコンテキスト長と高い推論効率を持つNemotron 3 Ultraは、長期間にわたる自律的なエージェントタスクに理想的であり、モデル、データ、学習レシピをHuggingFaceで公開した。
Abstract
We introduce Nemotron 3 Ultra, a 550 billion total and 55 billion active parameter Mixture-of-Experts Hybrid Mamba-Attention language model. We pre-trained Nemotron 3 Ultra on 20 trillion text tokens, then extended the context length to 1M tokens, and post-trained using Supervised Fine Tuning (SFT), Reinforcement Learning (RL), and Multi-teacher On-Policy Distillation (MOPD). Nemotron 3 Ultra is our most capable model yet, employing multiple key technologies - LatentMoE, Multi Token Prediction (MTP), NVFP4 pre-training, multi-environment RLVR, MOPD, and reasoning budget control. Nemotron 3 Ultra achieves up to ~6x higher inference throughput as compared to state-of-the-art publicly available LLMs while attaining on-par accuracy. The state-of-the-art accuracy, high inference throughput, and 1M token context length make Nemotron 3 Ultra ideal for long-running autonomous agentic tasks. We open-source the base, post-trained, and quantized checkpoints, along with the training data and recipe on HuggingFace.
Paper AI Chat
この論文のPDF全文を対象にAIに質問できます。
質問の例: