Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning
Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning
原文链接:https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/ 来源:NVIDIA Developer Blog 发布日期:2026-03
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | Nemotron 3 Super 的重点不是“更大”,而是按 Agent 场景的两大痛点——context explosion 和 thinking tax——去重新拼装模型骨架、训练路线和部署方式。 |
| 大白话版 | NVIDIA 想做的不是一颗更会聊天的开源模型,而是一台更适合长期干活、能读超长上下文、还能把成本压住的 Agent 引擎。 |
| 核心要点 | • 120B 总参/12B 激活参 • 原生 1M context • Hybrid Mamba-Transformer MoE • Latent MoE • Multi-token prediction • NVFP4 原生预训练 • RL 覆盖 21 类环境 |
| 价值评级 | A — 这不是普通的开源模型迭代,而是对“Agent 时代该用什么模型架构”给出了一份明确回答。 |
| 适用场景 | 长代码任务、多 Agent 编排、安全分析、工具调用密集型工作流、需要长上下文记忆的企业 Agent。 |
文章背景
NVIDIA 这篇文章的底层判断非常清晰:
Agent 时代的大模型瓶颈,已经和 2023-2024 年不一样了。
以前主要矛盾是:
- 模型够不够聪明;
- 能不能写对代码;
- 单轮 reasoning 行不行。
现在的主要矛盾变成了:
- 上下文爆炸(context explosion):多 agent 系统会不断把历史、工具输出、检索结果、子任务中间产物重新塞回上下文;
- 思考税(thinking tax):如果每个子任务都用最重的 reasoning model,全系统会贵得没法落地。
NVIDIA 没有把 Nemotron 3 Super 定义成“又一个强开源模型”,而是定义成“为复杂 multi-agent 应用设计的模型”。这点特别关键,因为它意味着设计目标已经从通用聊天,转向系统级负载。
完整内容还原
1. NVIDIA 在解决什么问题
原文开头就讲得很直白:
- multi-agent 系统会生成普通聊天最高 15 倍的 token;
- 长任务会因为上下文过长而产生 goal drift;
- 如果对每个子任务都调用重型 reasoning model,成本和延迟都会变得不可接受。
这其实非常接近真实生产环境。
一个成熟 Agent 系统的 token 流量,不是线性增长,而往往是链式放大:
- 主 agent 规划;
- 子 agent 并行执行;
- 每个子 agent 读工具输出;
- 工具再返回结果;
- 主 agent 汇总后继续分派。
所以 NVIDIA 看到的问题不是“模型不够大”,而是“传统 dense transformer 或普通 MoE 在长任务经济性上不够合适”。
2. Super 的定位:不是 Nano 的放大版
NVIDIA 明确说,Nemotron 3 Super 不是简单 bigger Nano。
它给出的主要规格:
- 120B total parameters;
- 12B active parameters;
- 原生 1M token context;
- 比上一代 Nemotron Super 吞吐高 5 倍以上;
- 在 PinchBench 上 85.6%,主打 OpenClaw / OpenHands 一类 Agent 大脑定位。
这套参数的核心信号不是“120B”,而是“12B active + 1M context + open recipe”。因为这说明 NVIDIA 想做的是一个高容量但推理成本可控的 Agent 主脑,而不是传统意义上的超大 dense 模型。
3. 架构核心:Hybrid Mamba-Transformer MoE
这是全篇最关键的技术点。
NVIDIA 的做法不是在 Transformer 上继续小修小补,而是把三种不同偏好的模块拼到一起:
- Mamba-2 layers:负责长序列效率;
- Transformer attention layers:负责精确检索与关联回忆;
- MoE layers:负责在不把推理成本打爆的前提下扩容能力。
直观理解:
- 如果全用 Transformer,1M context 成本太高;
- 如果全用 SSM/Mamba,精细检索和“针找针”能力可能不够;
- 如果全用 dense layers,Agent 场景成本会炸;
- 所以 NVIDIA 直接把三者拼成一个“长序列 + 精准提取 + 稀疏激活”的混合体。
这不是美学创新,而是典型的 Agent 导向工程架构。
4. Latent MoE:压缩后再路由
标准 MoE 的一个老问题是:
- token 在 full hidden dimension 上直接路由给专家;
- 维度越大,路由层越贵;
- 专家数量越多,成本越难压住。
Super 的解法是 Latent MoE:
- 先把 token embedding 压到低秩 latent space;
- 在更小维度里做 expert routing 和 expert computation;
- 再投影回原始维度。
NVIDIA 给出的结论非常激进:
- 在相同计算成本下,可以让模型咨询 4 倍数量的专家。
这件事对 Agent 特别重要,因为 Agent 任务天然高度异构:
- 一会儿写 Python;
- 一会儿做 SQL;
- 一会儿搜网页;
- 一会儿做结构化判断;
- 一会儿生成工具调用。
如果专家够细,模型就能用更低成本获得更细粒度专长。
5. MTP:不是为了炫生成速度,而是为长任务降墙钟时间
Nemotron 3 Super 加了 multi-token prediction (MTP)。
它的意义有两个:
- 训练时,强迫模型预测多个未来 token,逼它学更长程结构;
- 推理时,天然带来 speculative decoding 的 draft 能力,不需要额外 draft model。
原文说法是:
- 可对长序列生成显著提速;
- 结构化生成(代码、工具调用)里可带来最高约 3x wall-clock speedup。
这对 Agent 系统尤其关键,因为 Agent 很多时间不是花在“不会想”,而是花在“生成太慢”。尤其工具调用、代码补全、长日志分析,这些都很吃总生成时间。
6. NVFP4 原生预训练:从训练时就为低精度活着
Super 另一个很值得看的点是 native NVFP4 pretraining。
通常很多低精度模型路线是:
- 先高精度训练;
- 再量化到低精度;
- 然后接受一定精度损失。
NVIDIA 反过来:
- 直接在预训练阶段就让大部分乘加运行在 NVFP4;
- 让模型从第一步开始就适应 4-bit arithmetic 约束。
这件事的真正含义是:
不是把一个高精度模型压扁,而是把“低精度可用性”写进模型本体。
对 NVIDIA 来说,这当然也强绑定 Blackwell 生态。但从模型系统设计角度看,这确实是更彻底的路线。
7. 训练不是只靠静态文本,而是面向环境交互
NVIDIA 给出的训练路线有三段:
- 25T token 预训练;
- 约 7M SFT samples;
- 跨 21 种环境配置的 RL post-training,累计 120 万以上 environment rollouts。
这里最重要的不是 token 数量,而是 RL 环境的性质。文章强调,这些环境评估的是:
- 工具调用序列;
- 代码是否真的能执行;
- 多步骤计划是否满足可验证标准;
- 在动态环境下是否还能保持行为质量。
这说明 NVIDIA 不是把 Agent 只当 prompt 技巧,而是真的把交互环境引入训练目标。
核心技术洞察
1. 未来 Agent 模型不太可能再是纯 Transformer 一统天下
Nemotron 3 Super 传递出的最大信号之一是:
- 长上下文效率;
- 精确 recall;
- 稀疏扩容;
- 生成速度;
- 部署友好性;
这些目标很难靠单一架构同时做到最好。
Super 的混合骨架,像是在告诉行业:Agent 时代的大模型,很可能会越来越像异构系统,而不是单一范式。
2. Agent 场景真正贵的不是“单次回答”,而是“长期运行的总系统成本”
NVIDIA 一直在讲 thinking tax,这个表述其实很准。
很多团队在做 Agent 时,容易把重点放在“某个 benchmark 过不过”,但落地时决定成败的往往是:
- 同样完成一件事,需要多少 token;
- 需要多长时间;
- 能否把不同难度的子任务分层处理;
- 会不会越跑越偏。
Super 的设计就是围绕这个总成本视角来的。
3. 开源的价值被重新定义成“全栈可复用”
NVIDIA 不是只开放权重,还强调:
- datasets;
- training recipes;
- evaluation recipes;
- deployment cookbooks;
- RL environments。
这说明今天的“开源模型”已经不能只看能不能下载 checkpoint,更要看能不能把整条系统复用起来。
实践指南
🟢 立即可用(今天就能用到项目中)
1. 把 Nemotron 3 Super 放在“总控 / 规划 / 长上下文分析”位
最适合它的不是所有任务全包,而是:
- 规划复杂任务;
- 处理超长上下文;
- 对多子任务结果做合并判断;
- 负责高价值、高难度的关键节点。
2. 用“Super + Nano”做双层编排
NVIDIA 自己给了 deployment pattern:
- Nano 处理简单、目标清晰的步骤;
- Super 处理复杂规划和长程推理;
- 更难的极端任务再交 proprietary frontier models。
这和现实 Agent 架构高度一致,很有参考价值。
3. 长代码仓库和安全分析值得优先试
Super 明显对这两类场景做了偏置:
- 长代码库;
- 安全 triage;
- 工具密集型流程。
🟡 需要适配(根据项目情况调整)
1. 1M context 不等于你该无脑全塞
即便有 Mamba 层提升效率,真实系统里仍要做:
- 检索分层;
- 上下文裁剪;
- 记忆分块;
- 中间状态摘要。
2. Latent MoE 的真实收益要看推理引擎适配度
理论上的专家更多、成本不变,并不自动等于你在 vLLM / TensorRT-LLM / SGLang 里就能拿满收益。内核和 serving stack 很重要。
🔴 注意事项(可能的坑)
- NVIDIA 这类官方博客天然强调最佳情境,第三方长期稳定性仍要验证;
- NVFP4 价值会和 Blackwell 生态深绑定;
- Mamba-Transformer 混合架构在部分工具链中的兼容性和优化成熟度,未必和纯 Transformer 一样成熟;
- 1M context 的显存和吞吐管理,部署侧仍是硬门槛。
横向对比
| 话题 | Nemotron 3 Super | 常见开源大模型路线 | 结论 |
|---|---|---|---|
| 长上下文策略 | Mamba + attention 混合 | 多数仍以纯 Transformer + 优化 tricks 为主 | Super 更激进,也更 Agent 导向 |
| 稀疏扩容 | Latent MoE | 普通 MoE / dense 为主 | 在“更多专家但不更贵”上更有想象力 |
| 生成效率 | MTP + speculative style gains | 通常依赖外部 draft model 或常规 decoding 优化 | Super 把速度写进了训练目标 |
| 训练目标 | 文本 + SFT + 多环境 RL | 很多仍以静态语料和通用指令为主 | Super 明显更贴近 Agent 运行环境 |
| 开放程度 | 权重 + 数据 + recipes + cookbooks | 有些只开权重 | NVIDIA 更像在卖一整套 Agent 基础设施模板 |
批判性分析
局限性
- 文章没有像论文那样完整展开所有结构细节与消融;
- PinchBench 85.6% 很亮眼,但 benchmark 本身仍需更多社区广泛采用;
- 对多数团队来说,真正门槛可能不在模型,而在部署和成本工程。
适用边界
Nemotron 3 Super 最适合:
- 长任务、多工具、多子代理工作流;
- 需要长上下文检索且不能明显漂移的任务;
- 可接受一定部署复杂度、追求整体系统效率的团队。
不一定最适合:
- 轻量短对话;
- 纯文本、无长序列压力的简单 SaaS 场景;
- 没有 NVIDIA 生态条件的小团队快速试水。
潜在风险
- 混合架构带来的工程复杂度,可能会拖累生态广泛适配;
- Blackwell 绑定越深,跨硬件迁移灵活性越差;
- 如果 RL 环境分布与真实任务差异太大,Agent 行为仍可能在生产中翻车。
独立观察
- Nemotron 3 Super 最值得重视的不是单个指标,而是它对“Agent 工作负载长什么样”给出了非常明确的假设;
- Latent MoE 和 MTP 都不是单点噱头,而是在围绕“系统级时间和成本”做优化;
- NVIDIA 这次做的事,更像是在定义一个 Agent 原生开源模型模板,而不只是和其他开源模型拼榜单。
总结判断
Nemotron 3 Super 的真正意义是:
NVIDIA 公开押注了一种 Agent 原生模型范式——长上下文效率、稀疏专家、快速生成、环境强化学习、全栈开放。
它并不保证一定会成为最终胜利者,但它清楚地指出了未来模型设计的一个方向:
- 不是更大就够;
- 不是更会答题就够;
- 而是要更适合长期、昂贵、复杂、多工具的真实工作系统。
对所有在做 Agent 的团队来说,这篇文章都不只是新品介绍,而是一份非常有参考价值的架构路线图。