Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Posted on 2026-04-16 In 论文笔记 Views:

1. 前言

NVIDIA 发布了 Nemotron 3 Super，一个 120B 总参数、12B 激活参数的混合 Mamba-Attention Mixture-of-Experts 模型。这个模型的核心亮点在于三个方面：一是首次采用 NVFP4 低精度格式进行预训练，展示了在 FP4 精度下稳定训练大模型的可行性；二是提出了 LatentMoE 架构，通过在低维隐空间中执行路由和专家计算，同时提升 accuracy per FLOP 和 accuracy per parameter；三是集成了 Multi-Token Prediction (MTP) 层，通过共享权重的推测解码在不需要外部 draft 模型的情况下加速推理。

模型在 25 万亿 token 上完成预训练（分两阶段：80% 多样性数据 + 20% 高质量数据），经 SFT 和 RL 后训练后，支持 100 万上下文长度。在 8k 输入 / 64k 输出场景下，推理吞吐量分别达到 GPT-OSS-120B 的 2.2 倍和 Qwen3.5-122B 的 7.5 倍，同时保持精度持平甚至更优。

2. 背景

当前 MoE 大语言模型虽然在固定推理代价下能取得更高精度，但仍存在以下不足：

内存带宽瓶颈：在低延迟服务场景中，MoE 推理的主要开销来自读取专家权重，每个专家矩阵大小为 $d \times m$ （ $d$ 为隐藏维度， $m$ 为专家 FFN 中间维度），开销随维度线性增长
通信瓶颈：在吞吐导向的服务场景中，分布式 MoE 推理的 all-to-all 路由通信量与 $d \times K$ 成正比（ $K$ 为激活专家数），通信开销随维度和激活专家数增长
现有 MoE 设计缺乏软硬件协同优化：大多数 MoE 设计仅从高层稀疏性论证出发，面向离线吞吐场景优化，没有充分考虑在线部署的延迟、内存带宽和通信约束
推理效率与精度的矛盾：标准 Transformer 的 KV Cache 随序列长度二次增长，长上下文推理的内存开销巨大

基于上述问题，Nemotron 3 Super 从软硬件协同设计的角度重新审视 MoE 架构，提出了 LatentMoE，并结合 Hybrid Mamba-Attention 架构来解决推理效率问题。

3. 框架

3.1 整体架构

Nemotron 3 Super 的整体架构延续了 Nemotron 3 Nano 的混合设计思路，扩展到 120.6B 总参数、12.7B 激活参数。模型由三个核心组件构成：LatentMoE 稀疏扩展、MTP 推理加速层、以及周期性混合 Mamba-Attention 交替模式。

核心架构参数如下：

配置	Nemotron 3 Super 120B-A12B Base
总层数	88
模型维度	4096
Q-Heads	32
KV-Heads	2
Head 维度	128
Mamba 状态维度	128
Mamba Groups	8
Mamba Heads	128
Mamba Head 维度	64
专家隐藏维度	2688
共享专家中间维度	5376
每层总专家数	512
Top-K（激活专家数）	22
MoE 隐空间维度	1024
MTP 层数（共享权重）	2

88 层网络按周期性模式交替排列 Mamba-2 块与 MoE 层，其中少量 Self-Attention 层作为"全局锚点"插入，实现全 token 交互和长程信息路由。Mamba-2 块在生成时使用常数大小的状态，大幅减少内存开销和延迟。

3.2 LatentMoE

LatentMoE 是本文最重要的架构创新。其核心思想是将 MoE 的路由和专家计算从原始隐藏维度 $d$ 投影到更低的隐空间维度 $\ell$ 中执行。

具体流程：每个输入 token $\mathbf{x} \in \mathbb{R}^d$ 首先通过可学习的下投影矩阵 $\mathbf{W}^{\downarrow} \in \mathbb{R}^{\ell \times d}$ 投影到低维隐空间 $\mathbb{R}^\ell$ ，压缩后的表示在隐空间中被路由到扩展的专家集中进行计算。计算完成后，输出通过可学习的上投影矩阵 $\mathbf{W}^{\uparrow} \in \mathbb{R}^{d \times \ell}$ 投影回维度 $d$ 。

这一设计基于五条从软硬件协同分析中得出的原则：

低延迟场景下，MoE 推理受限于专家权重的内存带宽读取开销，需要减小 $d$ 或 $m$
吞吐场景下，分布式 MoE 受限于 all-to-all 路由通信量（ $\propto d \times K$ ），需要减小 $d$ 或 $K$
保持模型质量需要保持有效非线性预算 $K \cdot m$ 不变
任务的有效特征秩 $r_{\text{eff}}$ 给出了 $d$ 可缩减的下界
增加总专家数 $N$ 和 top- $K$ 可提升质量

通过将计算移入隐空间，每个专家的权重读取量和 all-to-all 通信量都降低了 $d/\ell$ 倍。节省下来的资源用于将总专家数从 $N$ 增加到 $N' = N \cdot d/\ell$ ，激活专家数从 $K$ 增加到 $K' = K \cdot d/\ell$ 。维度降低抵消了专家数量增加的开销，在相似的计算和通信预算下获得更高的模型质量。非路由计算（门控网络、共享专家、非专家层）仍在完整维度 $d$ 中执行。

3.3 Multi-Token Prediction (MTP)

Nemotron 3 Super 引入了 MTP 目标函数，同时提升建模质量和推理效率。不同于传统的 next-token 训练，MTP 优化模型在每个位置预测多个未来 token，鼓励表征捕获多步依赖和长程结构。

在推理阶段，辅助预测头充当内置的 draft 模型，生成候选续写，由主模型在单次前向传播中验证。这大幅降低了解码延迟，且额外 FLOPs 远少于使用外部 draft 模型。

共享权重设计：标准 MTP 使用 $N$ 个独立 head 分别预测固定偏移量（如 $n+2, \ldots, n+N+1$ ），但复用固定偏移 head 进行自回归生成会存在训练-推理不匹配——训练时基于 ground truth 隐状态，推理时基于自身生成的隐状态。Nemotron 3 Super 通过在多个 MTP head 之间共享参数来解决这一问题，使得统一的预测头暴露于多个偏移量，增强了自回归生成中对自身隐状态的鲁棒性。同一个 head 可以在推理时递归应用，生成更长的 draft 序列。

3.4 预训练策略

预训练分为两个阶段：

阶段一（80%，20T tokens）：关注数据多样性和广泛覆盖
阶段二（20%，5T tokens）：关注高质量数据和 benchmark 精度

整个预训练过程在 NVFP4 精度下完成，是首个在 FP4 精度下完成大规模预训练的模型。长上下文扩展支持到 100 万 token。

3.5 后训练

后训练重点关注 Agentic 能力。通过大幅扩展 RL 环境的广度、Agentic 训练数据的数量和质量，以及多步工具使用行为的训练量来增强模型的 Agent 能力。为了有效训练多样化的长 horizon 任务，改进了 RL 基础设施，实现了大规模异步训练。

3.6 量化：NVFP4 与 AutoQuantize

模型使用 NVFP4 格式进行量化和部署。NVFP4 采用双尺度方案：per-tensor 的全局缩放因子和 per-block 的细粒度缩放因子。

AutoQuantize 算法：通过二阶敏感性度量来为每个算子选择最优量化格式。对每个算子 $i$ 和格式 $f$ ，计算敏感性：

S(\text{Op}_i, Q_{i,f}) = (\mathbf{Y}^{\text{bf16}}_i - \mathbf{Y}^{Q_{i,f}}_i)^\top \mathbf{H}_i (\mathbf{Y}^{\text{bf16}}_i - \mathbf{Y}^{Q_{i,f}}_i)

其中 $\mathbf{H}_i$ 是局部 Hessian 近似。由于完整 Hessian 计算代价高昂，采用对角 Fisher 信息矩阵近似：

S(\text{Op}_i, Q_{i,f}) \approx \sum_{k=1}^{d} (\Delta Y_{i,k})^2 (g_{i,k})^2

其中 $\Delta \mathbf{Y}_i = \mathbf{Y}^{\text{bf16}}_i - \mathbf{Y}^{Q_{i,f}}_i$ ， $\mathbf{g}_i = \nabla_{\mathbf{Y}_i} \mathcal{L}$ 。

AutoQuantize 求解约束优化：

\min_{\{f\}} \sum_i S(\text{Op}_i, Q_{i,f}) \quad \text{s.t.} \quad \sum_i C(\text{Op}_i, Q_{i,f}) \leq B

其中 $C$ 为部署代价（FLOPs）， $B$ 为总预算。算法还考虑了线性层融合约束（QKV 共享格式）和 MoE 层约束（同层所有稀疏专家共享格式）。

4. 实验

4.1 MTP 推测解码性能

在 SPEED-Bench 上评估 MTP 的平均接受长度（draft 长度 = 7）：

类别	DeepSeek-R1	Qwen3-Next	Nemotron 3 Super
Coding	2.99	4.32	3.78
Humanities	2.67	3.07	3.26
Math	2.98	3.89	3.73
Multilingual	2.83	3.97	4.05
QA	2.63	3.09	3.16
RAG	2.79	3.53	3.78
Reasoning	2.80	3.47	3.59
Roleplay	2.19	2.17	2.82
STEM	2.79	3.37	3.30
Summarization	2.59	3.06	3.48
Writing	2.41	2.69	2.99
Average	2.70	3.33	3.45

发现：

Nemotron 3 Super 的总体平均接受长度（3.45）超过 DeepSeek-R1（2.70）和 Qwen3-Next（3.33）
在多语言（4.05）和摘要（3.48）任务上表现尤为突出
在所有类别中均优于 DeepSeek-R1，在大部分类别上与 Qwen3-Next 竞争或更优
共享权重的自回归设计在更长 draft 深度（位置 4-7）上表现出更稳定的接受率

4.2 量化算法消融

对比不同 PTQ 算法在 NVFP4 量化下的精度表现：

算法	MMLU-Pro	GPQA	LiveCodeBench	AA-LCR
BF16（无量化）	83.49	79.92	72.91	53.00
Default NVFP4 PTQ	82.99	79.29	70.18	55.50
Weight per-block MSE	83.31	79.92	71.37	56.75
Weight per-block output MSE	83.05	78.98	71.00	57.06
GPTQ	83.11	80.05	69.79	57.87

发现：

NVFP4 量化带来的精度损失非常小，Weight per-block MSE 方法在 MMLU-Pro 上仅损失 0.18 分
GPTQ 在 GPQA 上甚至超过 BF16 基线（80.05 vs 79.92），说明量化噪声在部分任务上可能起到正则化效果
量化模型在 AA-LCR 指标上反而优于 BF16，所有量化方法的 AA-LCR 均高于 BF16 的 53.00

4.3 与 SOTA 模型对比

在主要 benchmark 上的精度和吞吐量对比：

Benchmark	Nemotron 3 Super (BF16)	Nemotron 3 Super (NVFP4)	GPT-OSS-120B	Qwen3.5-122B
IFBench (指令遵循)	72.6	73.3	-	73.8
HMMT Feb25 (数学)	94.7	95.4	-	91.4
SWE-Bench (编码)	60.5	59.9	-	66.4
HLE (科学)	18.3	17.4	-	25.3
Term Bench Hard (终端)	22.8	24.5	-	26.8
Tau Bench v2 (工具)	25.8	60.5	-	74.5
RULER @ 1M (长上下文)	61.1	61.0	-	22.3
相对吞吐量	2.2	2.2	1.0	0.3

发现：

在推理吞吐量方面，Nemotron 3 Super（NVFP4）分别达到 GPT-OSS-120B 的 2.2 倍和 Qwen3.5-122B 的 7.5 倍
在 RULER @ 1M 长上下文评测中，Nemotron 3 Super 达到 61.0+，远超 Qwen3.5-122B 的 22.3，体现了 Hybrid Mamba 架构在长上下文上的优势
NVFP4 量化对精度的影响极小，部分 benchmark 上量化后甚至略优
在 SWE-Bench 等编码任务上与竞品持平或略低，但在数学推理（HMMT 95.4）上显著领先

4.4 预训练 Checkpoint Merge 效果

通过离线 checkpoint merge 策略，在 12 个 benchmark 上均超过了训练过程中任意单个 checkpoint 的精度。图中展示了从预训练初期到 25T token 完成时各 benchmark 的精度变化曲线，虚线为最佳 merge 结果。Merge 策略在 LR 衰减阶段（阴影区域）的 checkpoint 上尤其有效，能在所有任务类型上实现一致的精度提升。

5. 总结

Nemotron 3 Super 展示了几个值得关注的工程实践：

FP4 预训练的可行性：首次在大规模模型上验证了 NVFP4 预训练的稳定性，为未来更低精度训练铺路
LatentMoE 的设计思路：从软硬件协同角度出发，将维度降低的资源节省转化为更多专家和更高 top-K，在相同推理预算下获得更好的模型质量
共享权重 MTP：通过权重共享解决训练-推理分布不匹配问题，使自回归推测解码在更长 draft 长度上保持稳定

模型的局限在于部分 benchmark（如 HLE、Tau Bench）与 Qwen3.5-122B 仍有差距，Agentic 能力还有进一步提升空间。同时，LatentMoE 引入的投影层也带来了一定的额外参数和计算开销。