ERNIE 5.1 Officially Released! Topping Multiple Leaderboards — A Model That Writes Better and Understands You More
ERNIE 5.1 Officially Released! Topping Multiple Leaderboards — A Model That Writes Better and Understands You More
原文链接:https://ernie.baidu.com/blog/posts/ernie-5.1-0508-release/ 交叉信源:https://www.qbitai.com/2026/05/414496.html 来源:ERNIE Blog / 百度 发布日期:2026-05-09
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 百度把 ERNIE 5.0 的弹性预训练底座、全异步 RL 基建和多阶段 OPD 后训练拼到一起,用同规模模型约 6% 的预训练成本做出一代 Agent/搜索/推理更强的新旗舰。 |
| 大白话版 | 文心 5.1 不是简单“小改版”,而是百度在说:我可以不用再按老办法把每个模型单独重训,而是先训出一个可弹性伸缩的大底座,再抽出最优子网,并用一套更像“训练工厂”的 RL 流水线把 Agent、推理、创作能力统一灌进去。 |
| 核心要点 | • 总参数压到 ERNIE 5.0 的约 1/3、激活参数压到约 1/2 • 同规模模型预训练成本约 6% • Arena Search 1223 分,全球第 4、国产第 1 • AIME26(with tool use) 99.6,官方称仅次于 Gemini 3.1 Pro |
| 价值评级 | A = 必读级 |
| 适用场景 | 关注国产闭源基础模型、Agent 基础设施、低成本训练范式、企业搜索/知识系统的人都该读 |
文章背景
这篇文章重要,不只是因为“百度又发新模型”,而是因为它出现在一个很敏感的时间点:
- 中国基础模型已经从“单纯比参数、比 benchmark”进入“比训练效率、比企业可部署性、比 Agent 能力”的阶段。
- OpenAI、Anthropic、Google 在海外把竞争焦点往 agent、tool use、深度搜索、长链路工作流推,百度这里明显是在给出中文版答案。
- 文心 5.0 已经先把 Once-For-All 弹性训练、超大统一多模态底座的方向铺好,5.1 则开始兑现“如何把那套昂贵底座变成更便宜、但仍能打的产品代模型”。
所以这不是一篇营销稿那么简单,它本质上是在回答三个问题:
- 百度怎么把 5.0 的大底座知识继承下来?
- 百度怎么解决 Agent/RL 训练里最烧钱、最不稳定的系统问题?
- 百度怎么把 code/reasoning/agent/creative 这些相互打架的能力放进同一个模型,又尽量避免“跷跷板效应”?
完整内容还原
开场结论:5.1 是一代“成本-能力比”模型
原文第一段就把定位说得很直白:ERNIE 5.1 继承 ERNIE 5.0 的预训练基础,但把总参数压缩到约 1/3、激活参数压缩到约 1/2,同时仍在同规模模型中保持领先基础效果,而预训练成本只要同类模型约 6%。
这句话其实有三层意思:
- 不是从零训一个新模型,而是“继承 5.0 的知识与能力”。
- 压缩的不是一个小比例,而是对总参数和 active params 都动了大手术。
- 成本口径不是“比上一代便宜一点”,而是直接强调“同规模模型只用 6% 成本”。这意味着百度最想卖的,不只是榜单分数,而是工业化训练效率。
能力层:百度先端出了能打的 benchmark 结果
官方给出的第一组结果围绕 Agent、知识、推理、深度搜索展开:
- 在 τ³-bench 和 SpreadsheetBench-Verified 上,ERNIE 5.1 超过 DeepSeek-V4-Pro,官方口径是 Agent 能力接近领先闭源模型。
- 在 Search Arena 上,ERNIE 5.1 得分 1223,全球第 4、国产第 1。
- 在 GPQA 和 MMLU-Pro 上,官方称世界知识能力接近领先闭源模型。
- 在 AIME26(with tool use)上得分 99.6,官方称仅次于 Gemini 3.1 Pro。
- 在内部评测里,创意写作能力接近 Gemini 3.1 Pro。
这里最该注意的是排序,不是单看某一个分数。百度把“Agent、Search、Reasoning、Creative”放在同一个能力包里呈现,说明它定义的 5.1 已经不是单纯聊天模型,而是面向“复杂工作流执行 + 世界知识检索 + 生成输出”的综合底座。
技术特征 1:多维弹性预训练,不是裁剪,而是先训一棵大树再抽最优子网
这是全篇最关键的技术段。
百度说 ERNIE 5.1 来源于 ERNIE 5.0 的 multi-dimensional elastic sub-model matrix,也就是先在 ERNIE 5.0 时代通过 Once-For-All elastic training framework,一次预训练同时联合优化大量不同深度、不同 expert capacity、不同 routing sparsity 的子模型,再从中抽取最优子网。
和传统做法相比,差异非常大:
- 传统做法:不同模型规模各训各的,每个尺寸一条训练线。
- 文心 5.x 做法:先训一个“可弹性伸缩的大母体”,让多个尺寸共享权重与知识,再从这个矩阵里选最优子网。
原文把这套弹性拆成三维:
-
Elastic depth
- 训练中随机改变 active Transformer layers 数量。
- 让不同深度的子模型共享权重。
- 目的:让模型自己学会深层表示与浅层表示的平衡。
-
Elastic width / expert capacity
- 在 MoE 层里动态调整参与 routing 的 expert 数量。
- 通过动态采样不同 expert 子集,让模型适应 full expert pool 和 reduced expert pool 两种状态。
- 目标是提高 expert utilization efficiency。
-
Elastic sparsity
- 通过 variable Top-k routing,灵活改变被激活的 expert 数量。
- 激活更少 expert:推理更便宜、解码更快。
- 激活更多 expert:模型能力更强。
- 本质上是在 inference overhead 与 performance 之间做动态 trade-off。
这三维合起来,意味着百度不是简单做“蒸馏小模型”,而是在训练阶段就把“模型尺寸可变、路由稀疏度可变、激活代价可变”编码进底座本身。这样 5.1 不是外部压缩结果,而是 5.0 训练范式天然允许“抽一个更高性价比的工作点”。
技术特征 2:全异步、解耦式强化学习训练基建,瞄准的是长链路 Agent 训练
原文第二大块讲的是 RL 基础设施,信息密度很高。
百度在 PaddlePaddle 上做了一个 disaggregated reinforcement learning infrastructure,核心是一个 RL Controller,把四个子系统完全解耦:
- training
- inference
- reward
- agent loop
并通过网络化高性能数据组件互联,实现 control plane 与 data plane 分离。
这件事的价值在于什么?
传统 RL/agent training 的问题不是只靠“再多堆几张卡”能解:
- 训练、推理、奖励计算资源类型不同
- agent loop 有大量长尾任务,资源利用率很不均匀
- 训练与推理精度不一致、路由不一致,会导致 rollout 不稳定
百度这套架构的解法是:
- 每个子系统独立部署、独立扩缩容
- inference/training/reward 可以流水线重叠
- 不同环节按最优算力配置匹配
这等于把 RL 训练从“一个大一统作业”改造成“可调度的分布式工厂”。
技术特征 3:FP8 训推一致性优化,重点不是省显存,而是减少 RL 里最致命的偏差
原文特别提到两类优化:
- unified FP8 low-precision operator library
- Rollout Router Replay(R3)优化
直觉上,很多人看 FP8 会以为只是压成本,但这篇文章强调的重点不是“便宜”,而是“训练-推理一致性”。
在 RL,尤其是 MoE + 长链路 agentic RL 里,如果训练时看到的分布和推理 rollout 时的分布不一致,梯度信号就会被噪音污染,模型会越来越不稳。百度说他们通过:
- two-stage 计算-通信重叠
- dynamic bit-width communication compression
- multi-level KV-cache pooling
把 R3 的附加延迟压到接近零,同时把 K3 KL divergence 降低 50%。
虽然原文没有把 K3 的精确定义展开,但信息已经足够明确:百度在强调,它不是只把 RL 训起来,而是在解决“MoE 路由 + 低精度 + rollout 链路”之间的分布偏差问题。这种问题如果不解决,Agent benchmark 再好也很容易在长链任务里失稳。
技术特征 4:异构弹性资源调度,把闲置 CPU 也拉进 Agent 训练流水线
这是一个很工程、但很值钱的点。
原文明确写到:他们用 elastic CPU pooling,把集群里闲置 CPU 资源用于 code sandboxes 和 verifiers 这类 logic-intensive computations,从而降低 training iteration time。
这说明百度训练的是“真 agent 模型”,不是纯 token prediction 模型。因为一旦进入 code sandbox、verifier、tool execution 这类环节,很多开销并不在 GPU 上,而是在 CPU、网络、IO、调度层。
也就是说,百度现在优化的对象不再只是 Transformer 前向/反向本身,而是完整的 agent training pipeline 吞吐率。
技术特征 5:多阶段 RL 管线,以 OPD/MOPD 解决“多能力彼此打架”的老问题
这是原文另一条很硬的技术主线。
百度的判断是:传统后训练按 SFT → Mixed RL 顺序一条线跑,已经越来越难满足大模型能力扩张,因为:
- 研发迭代太慢
- 所有能力在一个训练阶段硬融合,会发生严重 multi-objective optimization conflicts
- 一个能力上升,另一个能力容易回退,出现 seesaw effect
他们提出的方案是以 Multi-Teacher On-Policy Distillation(文中后文具体写作 OPD stage,实质是多教师 on-policy 蒸馏)为中心的四阶段后训练:
-
Stage 1: Unified SFT
- 用高质量多域指令数据做统一 SFT。
- 目标:打好 instruction following 和 tool invocation 底座。
-
Stage 2: Domain Expert Model Training
- code、reasoning、agentic tasks 等多条能力线并行训练专家模型。
- 每个方向单独定 reward 和算法。
- 目的:避免异构任务互相干扰。
-
Stage 3: On-Policy Distillation (OPD)
- 统一 SFT 模型做 student。
- 多个领域专家做 teachers。
- student 从自己的 policy 分布采样,再通过 token-level reverse KL 从多个 teacher 学能力。
- 目的:把不同专家能力并到统一参数空间里。
-
Stage 4: General Online RL
- 对开放式聊天、创意写作这类高熵任务,不强行用 OPD 蒸馏。
- 直接在 post-OPD 模型上做 online RL。
- 目的:保住 instruction-following、生成多样性和人类偏好对齐,同时不破坏前面学到的专家能力。
这里最有价值的洞察是:百度承认“不是所有能力都适合蒸馏整合”。
高熵任务如果硬做 token-level KL,很容易被过度平滑,导致创作和通用对话味道被磨平。于是他们把“专家能力融合”和“开放式通用能力调优”拆开做。这个决策相当成熟,说明他们不是只会往一个 loss 里塞所有目标。
创意能力段落:官方在证明自己不是只有工程,不是只会写 benchmark
原文最后一块讲创作能力,提到:
- 创意写作中“灵感—情感—表达”的对齐
- 长叙事里“逻辑—人物—节奏”的协调控制
- 专业内容中“知识准确性—风格适配性”的平衡
这一段当然带有营销色彩,但也有一个技术信号:百度已经把 creative quality 看成底座模型的正式 KPI,而不是附带能力。对企业内容平台、写作工具、营销生成器来说,这会直接影响模型选型。
核心技术洞察
1. 真正有价值的不是“模型更小”,而是“训练范式可弹性复用”
ERNIE 5.1 的关键不只是把参数压小,而是证明百度想把“训一个大母体,再抽不同工作点子网”的模式工业化。这个方向如果成立,未来模型代际更新不一定都要从零起大炉重炼。
2. Agent 时代的瓶颈正在从模型架构转向系统架构
全文最重的技术资产之一,其实是 RL Controller、异步解耦、CPU pooling、R3、FP8 一致性这些基础设施。因为长链路 agent 训练的核心难题,已经不只是 loss 设计,而是整条 rollout 工厂怎么稳定跑。
3. 多能力统一模型的难点不是“能不能训进去”,而是“怎么不互相伤害”
百度给出的答案不是把所有数据混一起硬训,而是:专家并行训练 + OPD 融合 + General RL 兜底。这个思路对所有想做“一个模型打天下”的团队都很有参考价值。
实践指南
🟢 立即可用
-
重新理解“训练效率”指标
- 做什么:看模型时,不只盯参数量和榜单,也盯 total params、active params、预训练成本比例、是否支持弹性子网抽取。
- 为什么:这决定企业长期供给能力和版本迭代速度。
- 注意:厂商给出的“6% 成本”通常是同规模口径,不等于绝对训练开销只有别人 6%。
-
重新评估 Agent 模型基础设施需求
- 做什么:如果你在做 agent training,要把 CPU、verifier、sandbox、异步调度也算进系统设计。
- 为什么:真正拖慢训练闭环的,常常不在 GPU 主干本身。
- 注意:只优化模型前向速度,不一定能提升长链路 RL 吞吐。
🟡 需要适配
-
OPD/多教师蒸馏范式
- 适配条件:你的组织同时追求 code/reasoning/creative/agent 多能力统一。
- 调整方向:把高熵创作类能力与低熵专家任务拆开处理,不要一锅炖。
-
弹性预训练范式
- 适配条件:你有能力维护统一底座,并反复产出不同成本/能力档位子模型。
- 调整方向:重点不在最终模型多小,而在训练期是否建立足够好的子模型矩阵。
🔴 注意事项
-
Search Arena 和内部创作评测都不是完整产品现实
- 搜索榜强,不自动等于企业知识系统就会赢。
-
“同规模模型约 6% 成本”需要更多外部拆解
- 这背后可能包含口径选择、训练继承收益和规模比较基准差异。
-
RL 系统能力强,不等于线上 Agent 稳定性自然成立
- 训练闭环优化与真实客户任务鲁棒性之间仍有距离。
横向对比
| 话题 | 本文观点 | DeepSeek-V4-Pro | Gemini 3.1 Pro / 海外闭源前沿 |
|---|---|---|---|
| 训练哲学 | 大底座 + 弹性抽子网 + 多阶段融合 | 更强调模型/Agent能力发布节奏 | 更强调顶层能力领先,但很少公开系统细节 |
| Agent 训练 | 强调全异步 RL 基建与系统吞吐 | 公开口径偏产品能力与协议支持 | 多数只露 benchmark,不细讲基础设施 |
| 成本叙事 | 预训练成本约同规模 6% | 更强调能力与性价比,但未给出同类口径 | 海外闭源通常不公开同维度成本 |
| 创作能力 | 明确纳入旗舰模型卖点 | 公开叙事偏通用/工具/多模态 | 海外头部模型已把创作能力视作标配 |
批判性分析
局限性
-
很多关键指标仍是官方自报口径
- 包括成本、创意写作能力对比、若干接近/超过闭源模型的描述。
-
缺失更细 benchmark 表
- 原文没有把 τ³-bench、SpreadsheetBench、GPQA、MMLU-Pro、AIME26 的完整对照表全摊开。
-
6% 成本背后的比较口径仍不够透明
- 是对同 active params、同总参数、还是同最终效果档位比较,外部仍需拆解。
适用边界
- 如果你关心的是国产闭源模型的长期供给能力,这篇非常重要。
- 如果你只关心 API 价格和企业案例,这篇还不够,需要等 Create 2026 补更多商业细节。
- 如果你要复现其核心方法,公开细节仍不足以工程复刻,只能吸收方向和架构理念。
潜在风险
- 过度依赖单一统一底座,可能让后续架构切换成本升高。
- 多教师蒸馏 + General RL 管线虽然优雅,但工程链极复杂,维护成本高。
- Search/Agent 榜单漂亮,不代表企业侧 SLA、成本和长尾稳定性已经同样成熟。
独立观察
- ERNIE 5.1 最值得重视的不是某个榜单,而是百度开始公开把“模型训练工厂”当成核心护城河。
- 它像是中国闭源基础模型的一次方向声明:未来要赢,不只靠更大参数,而要靠更会组织参数、算力、RL 流水线和多能力融合。
- 如果百度后续把这套范式进一步开放到 API 价格、Agent workflow、企业案例层面,文心 5.1 可能会成为国内企业知识系统与搜索增强 Agent 的重要分水岭。