AI Research

深度解读 — Mamba-3：当 SSM 为推理而生

速查卡

项目	内容
一句话总结	Mamba-3 是首个以推理效率为核心设计的 SSM，通过更丰富的递归、复数值状态和 MIMO 变体，在 1.5B 规模上全面超越 Mamba-2 和 Transformer
大白话版	以前的线性模型都在追求训练快，结果推理时 GPU 闲着没事干。Mamba-3 反过来，让每次推理都充分利用 GPU 的计算能力，跑得又快又准
核心数字	1.5B 参数击败 Llama-3.2-1B（Transformer）；MIMO 变体 +1% 准确率不增加推理延迟；移除短卷积层
评级	A — 架构方向性突破，开源内核，混合架构预测有战略价值

核心 Insight：为什么这个想法 work

关键洞察

Mamba-2 的设计哲学是「让训练更快」，为此简化了 SSM 的递归公式（对角转移矩阵退化为标量×单位矩阵）。这在训练时减少了计算量，但在推理时造成了一个反直觉的问题：每个 token 的推理计算量太少了，GPU 的计算单元（tensor cores）大部分时间在空闲，瓶颈完全在内存带宽上。

Mamba-3 的核心逻辑是：既然推理时 GPU 有空闲的计算能力，那就给它更多有意义的活干，在不增加（甚至减少）推理延迟的前提下提升模型质量。

三个技术杠杆

1. 指数梯形离散化（Exponential-Trapezoidal Discretization）

传统 SSM 使用简单的离散化方案将连续系统转化为离散递归。Mamba-3 采用更通用的指数梯形公式，使递归本身更具表现力。这个新递归隐含了类似短卷积的功能，因此 Mamba-3 成功移除了 Mamba-1/2 标志性的短因果卷积层。

直觉解释：想象你在追踪一条平滑曲线。简单的离散化只采样端点，梯形方法考虑了区间内的变化趋势，用更少的点捕捉更多信息。

2. 复数值状态追踪（Complex-Valued SSM）

通过将状态空间从实数扩展到复数域，Mamba-3 利用 RoPE（旋转位置编码）的复数旋转解释来实现复数值转移矩阵——无需重写内核。

直觉解释：实数状态只能表示「大小」，复数状态能同时编码「大小」和「相位/方向」。这对捕捉序列中的周期性模式和位置关系至关重要。

3. MIMO（多输入多输出）SSM

标准 SSM 是 SISO（单输入单输出）——每个通道独立处理。MIMO 通过扩展 B 和 C 矩阵让多个 SSM 并行运行，在不增加状态大小的前提下提升表达力。

关键 tradeoff：MIMO 增加了训练 FLOPs 但不增加推理延迟。原因是训练时 GPU 已经在全速运转（计算瓶颈），多出的 FLOPs 会拖慢训练。但推理时每个时间步的计算远未饱和（内存瓶颈），多出的 FLOPs 可以被空闲的 tensor cores 消化。

架构变化

BCNorm（QKNorm in SSM terminology）：稳定训练，与 Transformer 的 QKNorm 对齐
移除短卷积：新递归 + BC bias 已隐含卷积功能，实验证明移除后性能不降（反而略升）
交替 MLP 层：遵循 Transformer/线性模型的标准惯例
RoPE 模块：通过复数旋转实现复数值 SSM，避免重写内核

实验结果

语言建模（下游任务）

模型	规模	结果
Mamba-2	1.5B	基准线
Gated DeltaNet	1.5B	≈ Mamba-2
Mamba-3 SISO	1.5B	> Mamba-2, > GDN
Mamba-3 MIMO	1B	> Mamba-3 SISO (+1% pts)
Llama-3.2-1B (Transformer)	1B	< Mamba-3 SISO (延迟)

检索任务

纯线性模型在检索上仍弱于 Transformer（固定状态 vs 持续增长的 KV cache 是根本差异）。但 Mamba-3 在同类 sub-quadratic 模型中表现最佳，MIMO 进一步提升检索但不增加状态大小。

团队的关键预测：未来线性层将主要与全局自注意力层混合使用（至少在语言建模中），发挥线性层的通用记忆特性 + 自注意力的精确数据库式存取。

内核性能

团队使用 Triton + TileLang + CuTe DSL 的混合方案，针对不同 GPU 架构优化。开源发布。

复现评估

维度	评分	说明
数据可获得性	⭐⭐⭐⭐	使用标准语言建模数据集
代码开源	⭐⭐⭐⭐⭐	内核完全开源
算力需求	⭐⭐⭐	1.5B 预训练需要中等规模 GPU 集群
工程复杂度	⭐⭐⭐	自定义内核需要 CUDA/Triton 经验
收益确定性	⭐⭐⭐⭐	推理提速方向明确，混合架构收益已被多方验证

批判性分析

局限性

纯线性模型仍然不是最终答案：团队自己承认混合架构是未来方向，这意味着 Mamba-3 不会单独替代 Transformer，而是作为混合架构的组件存在
检索能力的理论天花板：固定状态大小的根本限制无法通过更丰富的递归完全弥补——这是信息论层面的约束
混合架构的最佳配比未知：线性层和自注意力层的比例、插入位置等超参数空间巨大，目前缺乏系统性研究
短卷积移除的理论解释不足：团队承认只有经验性观察和假设，缺乏严格的理论证明

改进方向

系统研究混合架构中线性层/注意力层的最佳配比
将 Mamba-3 内核集成到主流推理框架（vLLM、TGI、SGLang）
探索 MIMO 在更大规模（7B+）上的 scaling 行为
研究复数值状态在长上下文场景中的外推能力

独立观察

Mamba-3 论文最有价值的不是具体的技术方案，而是设计哲学的转变：从「让训练更快」到「让推理更好」。在 Agent 工作流、RLVR rollout、长上下文推理等推理密集场景爆炸的时代，这个方向性判断本身就比具体的数字提升更重要。

团队提到 OpenClaw 作为推理需求暴增的例证，这也从侧面反映了 Agent 生态对底层架构设计的反向影响——应用场景正在重新定义什么是「好的模型架构」。

信源

Together AI Blog: Mamba-3
HN 讨论 236+ pts
CMU / Princeton / Cartesia AI / Together AI 联合研究