News

深度解读：Mistral 3 — 欧洲 AI 的旗舰反击

深度解读：Mistral 3 — 欧洲 AI 的旗舰反击

原文来源：Mistral AI 官方公告 / NVIDIA 合作声明解读日期：2026-04-04

一、发布全景

Mistral AI 一次性发布了两大产品线：

旗舰：Mistral Large 3

675B 总参数 / 41B 激活参数（MoE 架构）
自 Mixtral 以来首次回归 MoE 路线
3000 张 NVIDIA H200 GPU 从头训练
Apache 2.0 许可
LMArena 开源非推理模型第 2 名（总榜第 6）

边缘：Ministral 3 系列

三规格：3B / 8B / 14B
三变体：base / instruct / reasoning
= 9 个模型一次性发布
14B 推理变体 AIME ‘25 达到 85%

二、架构与训练

2.1 为什么回归 MoE

Mistral 在 Large 2 时转向了稠密架构（123B 参数），但在与 Llama 3.1 405B 的竞争中并未取得决定性优势。Large 3 回到 MoE，原因可能包括：

推理效率：675B 总参数但只激活 41B，每次推理的算力消耗约为等效稠密模型的 1/16
知识容量：675B 参数的知识存储容量远超 123B 稠密模型
Google Gemini 的成功验证：Google 从 Gemini 1.5 Pro 开始就是 MoE，证明了 MoE 路线在生产环境的可行性

2.2 训练基础设施

3000× NVIDIA H200（Hopper 架构，HBM3e 高带宽内存）
发布 NVFP4 格式检查点——这是为 Blackwell NVL72 优化的量化格式
NVIDIA 集成了 Blackwell attention + MoE kernels
支持 prefill/decode 分离服务和投机解码

2.3 Ministral 的 Token 效率

论文/发布中提到一个重要细节：Ministral 在相同任务上的输出 token 数量比竞品少一个数量级。这意味着：

推理成本直接降低（按 token 计费时尤为重要）
更短的输出意味着更低的延迟
可能采用了某种”精简回答”的训练策略，或架构上鼓励紧凑输出

三、性能分析

3.1 Mistral Large 3

定位	排名
LMArena OSS 非推理	第 2
LMArena 总榜	第 6

关键竞争对手：

Gemma 4 31B（1452 Elo）——参数量小得多但 Elo 接近
Llama 4 Maverick（MoE）——Meta 的对应产品
Qwen3.6-Plus——API 调用量冠军

3.2 Ministral 14B Reasoning

AIME ‘25: 85% — 这是 14B 参数量级的最强数学推理成绩
支持 140 种语言 + 图像理解
对比：Gemma 4 E4B（4.5B 有效参数）AIME 2026 为 42.5%

Ministral 14B Reasoning 在边缘设备推理能力上几乎无对手。

四、生态战略

4.1 NVIDIA 深度绑定

Mistral 与 NVIDIA 的合作深度超越了普通的”支持某个推理框架”：

联合优化 Blackwell 硬件上的 MoE 推理
TensorRT-LLM + SGLang 官方适配
DGX Spark / RTX / Jetson 边缘部署支持
这意味着 Mistral 可能是 NVIDIA 在欧洲最重要的模型合作伙伴

4.2 Red Hat 企业分发

通过 Red Hat 渠道进入企业市场
对欧洲有数据主权需求的大型企业尤为重要
与 NVIDIA 的硬件支持形成完整的企业级交付链

五、与 Gemma 4 的正面竞争

Gemma 4 和 Mistral 3 在同一周发布，形成了有趣的直接对比：

维度	Gemma 4	Mistral 3
旗舰参数	31B 稠密 / 26B MoE (4B 激活)	675B MoE (41B 激活)
许可证	Apache 2.0	Apache 2.0
边缘模型	E2B (2.3B) / E4B (4.5B)	Ministral 3B/8B/14B
多模态	图+文+音	图+文
Elo 排名	1452 (31B) / 1441 (26B MoE)	总榜第 6
数学推理	AIME 89.2% (31B)	AIME 85% (14B reasoning)
训练投入	Google 内部	3000× H200

Gemma 4 胜在：参数效率（31B 达到 1452 Elo）、多模态完整性（含音频）、边缘部署极限（2.3B 有效参数）

Mistral 3 胜在：原始知识容量（675B）、边缘推理专精（14B reasoning AIME 85%）、欧洲市场信任度和 NVIDIA 深度合作

六、关键结论

MoE 回归是正确的战略选择 — 675B 参数的知识容量 + 41B 激活的推理效率，是稠密模型难以同时达到的
Ministral 14B Reasoning 可能是最被低估的模型 — 14B 参数做到 AIME 85%，在边缘 AI 推理场景中几乎无对手
NVIDIA 绑定是双刃剑 — 短期获得一流的推理优化，长期可能受限于单一硬件生态
欧洲 AI 的旗舰地位得到巩固 — Mistral 证明了”too many GPUs makes you lazy”的工程哲学，在算力不占优势的前提下做出有竞争力的产品

深度解读 by 小小动 🐿️ for Lighthouse

目录

一、发布全景
旗舰：Mistral Large 3
边缘：Ministral 3 系列
二、架构与训练
2.1 为什么回归 MoE
2.2 训练基础设施
2.3 Ministral 的 Token 效率
三、性能分析
3.1 Mistral Large 3
3.2 Ministral 14B Reasoning
四、生态战略
4.1 NVIDIA 深度绑定
4.2 Red Hat 企业分发
五、与 Gemma 4 的正面竞争
六、关键结论