News

Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning

原文链接：https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/ 来源：NVIDIA Developer Blog 发布日期：2026-03

速查卡

项目	内容
一句话总结	Nemotron 3 Super 的重点不是“更大”，而是按 Agent 场景的两大痛点——context explosion 和 thinking tax——去重新拼装模型骨架、训练路线和部署方式。
大白话版	NVIDIA 想做的不是一颗更会聊天的开源模型，而是一台更适合长期干活、能读超长上下文、还能把成本压住的 Agent 引擎。
核心要点	• 120B 总参/12B 激活参 • 原生 1M context • Hybrid Mamba-Transformer MoE • Latent MoE • Multi-token prediction • NVFP4 原生预训练 • RL 覆盖 21 类环境
价值评级	A — 这不是普通的开源模型迭代，而是对“Agent 时代该用什么模型架构”给出了一份明确回答。
适用场景	长代码任务、多 Agent 编排、安全分析、工具调用密集型工作流、需要长上下文记忆的企业 Agent。

文章背景

NVIDIA 这篇文章的底层判断非常清晰：

Agent 时代的大模型瓶颈，已经和 2023-2024 年不一样了。

以前主要矛盾是：

模型够不够聪明；
能不能写对代码；
单轮 reasoning 行不行。

现在的主要矛盾变成了：

上下文爆炸（context explosion）：多 agent 系统会不断把历史、工具输出、检索结果、子任务中间产物重新塞回上下文；
思考税（thinking tax）：如果每个子任务都用最重的 reasoning model，全系统会贵得没法落地。

NVIDIA 没有把 Nemotron 3 Super 定义成“又一个强开源模型”，而是定义成“为复杂 multi-agent 应用设计的模型”。这点特别关键，因为它意味着设计目标已经从通用聊天，转向系统级负载。

完整内容还原

1. NVIDIA 在解决什么问题

原文开头就讲得很直白：

multi-agent 系统会生成普通聊天最高 15 倍的 token；
长任务会因为上下文过长而产生 goal drift；
如果对每个子任务都调用重型 reasoning model，成本和延迟都会变得不可接受。

这其实非常接近真实生产环境。

一个成熟 Agent 系统的 token 流量，不是线性增长，而往往是链式放大：

主 agent 规划；
子 agent 并行执行；
每个子 agent 读工具输出；
工具再返回结果；
主 agent 汇总后继续分派。

所以 NVIDIA 看到的问题不是“模型不够大”，而是“传统 dense transformer 或普通 MoE 在长任务经济性上不够合适”。

2. Super 的定位：不是 Nano 的放大版

NVIDIA 明确说，Nemotron 3 Super 不是简单 bigger Nano。

它给出的主要规格：

120B total parameters；
12B active parameters；
原生 1M token context；
比上一代 Nemotron Super 吞吐高 5 倍以上；
在 PinchBench 上 85.6%，主打 OpenClaw / OpenHands 一类 Agent 大脑定位。

这套参数的核心信号不是“120B”，而是“12B active + 1M context + open recipe”。因为这说明 NVIDIA 想做的是一个高容量但推理成本可控的 Agent 主脑，而不是传统意义上的超大 dense 模型。

3. 架构核心：Hybrid Mamba-Transformer MoE

这是全篇最关键的技术点。

NVIDIA 的做法不是在 Transformer 上继续小修小补，而是把三种不同偏好的模块拼到一起：

Mamba-2 layers：负责长序列效率；
Transformer attention layers：负责精确检索与关联回忆；
MoE layers：负责在不把推理成本打爆的前提下扩容能力。

直观理解：

如果全用 Transformer，1M context 成本太高；
如果全用 SSM/Mamba，精细检索和“针找针”能力可能不够；
如果全用 dense layers，Agent 场景成本会炸；
所以 NVIDIA 直接把三者拼成一个“长序列 + 精准提取 + 稀疏激活”的混合体。

这不是美学创新，而是典型的 Agent 导向工程架构。

4. Latent MoE：压缩后再路由

标准 MoE 的一个老问题是：

token 在 full hidden dimension 上直接路由给专家；
维度越大，路由层越贵；
专家数量越多，成本越难压住。

Super 的解法是 Latent MoE：

先把 token embedding 压到低秩 latent space；
在更小维度里做 expert routing 和 expert computation；
再投影回原始维度。

NVIDIA 给出的结论非常激进：

在相同计算成本下，可以让模型咨询 4 倍数量的专家。

这件事对 Agent 特别重要，因为 Agent 任务天然高度异构：

一会儿写 Python；
一会儿做 SQL；
一会儿搜网页；
一会儿做结构化判断；
一会儿生成工具调用。

如果专家够细，模型就能用更低成本获得更细粒度专长。

5. MTP：不是为了炫生成速度，而是为长任务降墙钟时间

Nemotron 3 Super 加了 multi-token prediction (MTP)。

它的意义有两个：

训练时，强迫模型预测多个未来 token，逼它学更长程结构；
推理时，天然带来 speculative decoding 的 draft 能力，不需要额外 draft model。

原文说法是：

可对长序列生成显著提速；
结构化生成（代码、工具调用）里可带来最高约 3x wall-clock speedup。

这对 Agent 系统尤其关键，因为 Agent 很多时间不是花在“不会想”，而是花在“生成太慢”。尤其工具调用、代码补全、长日志分析，这些都很吃总生成时间。

6. NVFP4 原生预训练：从训练时就为低精度活着

Super 另一个很值得看的点是 native NVFP4 pretraining。

通常很多低精度模型路线是：

先高精度训练；
再量化到低精度；
然后接受一定精度损失。

NVIDIA 反过来：

直接在预训练阶段就让大部分乘加运行在 NVFP4；
让模型从第一步开始就适应 4-bit arithmetic 约束。

这件事的真正含义是：

不是把一个高精度模型压扁，而是把“低精度可用性”写进模型本体。

对 NVIDIA 来说，这当然也强绑定 Blackwell 生态。但从模型系统设计角度看，这确实是更彻底的路线。

7. 训练不是只靠静态文本，而是面向环境交互

NVIDIA 给出的训练路线有三段：

25T token 预训练；
约 7M SFT samples；
跨 21 种环境配置的 RL post-training，累计 120 万以上 environment rollouts。

这里最重要的不是 token 数量，而是 RL 环境的性质。文章强调，这些环境评估的是：

工具调用序列；
代码是否真的能执行；
多步骤计划是否满足可验证标准；
在动态环境下是否还能保持行为质量。

这说明 NVIDIA 不是把 Agent 只当 prompt 技巧，而是真的把交互环境引入训练目标。

核心技术洞察

1. 未来 Agent 模型不太可能再是纯 Transformer 一统天下

Nemotron 3 Super 传递出的最大信号之一是：

长上下文效率；
精确 recall；
稀疏扩容；
生成速度；
部署友好性；

这些目标很难靠单一架构同时做到最好。

Super 的混合骨架，像是在告诉行业：Agent 时代的大模型，很可能会越来越像异构系统，而不是单一范式。

2. Agent 场景真正贵的不是“单次回答”，而是“长期运行的总系统成本”

NVIDIA 一直在讲 thinking tax，这个表述其实很准。

很多团队在做 Agent 时，容易把重点放在“某个 benchmark 过不过”，但落地时决定成败的往往是：

同样完成一件事，需要多少 token；
需要多长时间；
能否把不同难度的子任务分层处理；
会不会越跑越偏。

Super 的设计就是围绕这个总成本视角来的。

3. 开源的价值被重新定义成“全栈可复用”

NVIDIA 不是只开放权重，还强调：

datasets；
training recipes；
evaluation recipes；
deployment cookbooks；
RL environments。

这说明今天的“开源模型”已经不能只看能不能下载 checkpoint，更要看能不能把整条系统复用起来。

实践指南

🟢 立即可用（今天就能用到项目中）

1. 把 Nemotron 3 Super 放在“总控 / 规划 / 长上下文分析”位

最适合它的不是所有任务全包，而是：

规划复杂任务；
处理超长上下文；
对多子任务结果做合并判断；
负责高价值、高难度的关键节点。

2. 用“Super + Nano”做双层编排

NVIDIA 自己给了 deployment pattern：

Nano 处理简单、目标清晰的步骤；
Super 处理复杂规划和长程推理；
更难的极端任务再交 proprietary frontier models。

这和现实 Agent 架构高度一致，很有参考价值。

3. 长代码仓库和安全分析值得优先试

Super 明显对这两类场景做了偏置：

长代码库；
安全 triage；
工具密集型流程。

🟡 需要适配（根据项目情况调整）

1. 1M context 不等于你该无脑全塞

即便有 Mamba 层提升效率，真实系统里仍要做：

检索分层；
上下文裁剪；
记忆分块；
中间状态摘要。

2. Latent MoE 的真实收益要看推理引擎适配度

理论上的专家更多、成本不变，并不自动等于你在 vLLM / TensorRT-LLM / SGLang 里就能拿满收益。内核和 serving stack 很重要。

🔴 注意事项（可能的坑）

NVIDIA 这类官方博客天然强调最佳情境，第三方长期稳定性仍要验证；
NVFP4 价值会和 Blackwell 生态深绑定；
Mamba-Transformer 混合架构在部分工具链中的兼容性和优化成熟度，未必和纯 Transformer 一样成熟；
1M context 的显存和吞吐管理，部署侧仍是硬门槛。

横向对比

话题	Nemotron 3 Super	常见开源大模型路线	结论
长上下文策略	Mamba + attention 混合	多数仍以纯 Transformer + 优化 tricks 为主	Super 更激进，也更 Agent 导向
稀疏扩容	Latent MoE	普通 MoE / dense 为主	在“更多专家但不更贵”上更有想象力
生成效率	MTP + speculative style gains	通常依赖外部 draft model 或常规 decoding 优化	Super 把速度写进了训练目标
训练目标	文本 + SFT + 多环境 RL	很多仍以静态语料和通用指令为主	Super 明显更贴近 Agent 运行环境
开放程度	权重 + 数据 + recipes + cookbooks	有些只开权重	NVIDIA 更像在卖一整套 Agent 基础设施模板

批判性分析

局限性

文章没有像论文那样完整展开所有结构细节与消融；
PinchBench 85.6% 很亮眼，但 benchmark 本身仍需更多社区广泛采用；
对多数团队来说，真正门槛可能不在模型，而在部署和成本工程。

适用边界

Nemotron 3 Super 最适合：

长任务、多工具、多子代理工作流；
需要长上下文检索且不能明显漂移的任务；
可接受一定部署复杂度、追求整体系统效率的团队。

不一定最适合：

轻量短对话；
纯文本、无长序列压力的简单 SaaS 场景；
没有 NVIDIA 生态条件的小团队快速试水。

潜在风险

混合架构带来的工程复杂度，可能会拖累生态广泛适配；
Blackwell 绑定越深，跨硬件迁移灵活性越差；
如果 RL 环境分布与真实任务差异太大，Agent 行为仍可能在生产中翻车。

独立观察

Nemotron 3 Super 最值得重视的不是单个指标，而是它对“Agent 工作负载长什么样”给出了非常明确的假设；
Latent MoE 和 MTP 都不是单点噱头，而是在围绕“系统级时间和成本”做优化；
NVIDIA 这次做的事，更像是在定义一个 Agent 原生开源模型模板，而不只是和其他开源模型拼榜单。

总结判断

Nemotron 3 Super 的真正意义是：

NVIDIA 公开押注了一种 Agent 原生模型范式——长上下文效率、稀疏专家、快速生成、环境强化学习、全栈开放。

它并不保证一定会成为最终胜利者，但它清楚地指出了未来模型设计的一个方向：

不是更大就够；
不是更会答题就够；
而是要更适合长期、昂贵、复杂、多工具的真实工作系统。

对所有在做 Agent 的团队来说，这篇文章都不只是新品介绍，而是一份非常有参考价值的架构路线图。

速查卡
文章背景
完整内容还原
1. NVIDIA 在解决什么问题
2. Super 的定位：不是 Nano 的放大版
3. 架构核心：Hybrid Mamba-Transformer MoE
4. Latent MoE：压缩后再路由
5. MTP：不是为了炫生成速度，而是为长任务降墙钟时间
6. NVFP4 原生预训练：从训练时就为低精度活着
7. 训练不是只靠静态文本，而是面向环境交互
核心技术洞察
1. 未来 Agent 模型不太可能再是纯 Transformer 一统天下
2. Agent 场景真正贵的不是“单次回答”，而是“长期运行的总系统成本”
3. 开源的价值被重新定义成“全栈可复用”
实践指南
🟢 立即可用（今天就能用到项目中）
🟡 需要适配（根据项目情况调整）
🔴 注意事项（可能的坑）
横向对比
批判性分析
局限性
适用边界
潜在风险
独立观察
总结判断