Esc
输入关键词开始搜索
News

ERNIE 5.1 Officially Released! Topping Multiple Leaderboards — A Model That Writes Better and Understands You More

ERNIE 5.1 Officially Released! Topping Multiple Leaderboards — A Model That Writes Better and Understands You More

原文链接:https://ernie.baidu.com/blog/posts/ernie-5.1-0508-release/ 交叉信源:https://www.qbitai.com/2026/05/414496.html 来源:ERNIE Blog / 百度 发布日期:2026-05-09

速查卡

项目内容
一句话总结百度把 ERNIE 5.0 的弹性预训练底座、全异步 RL 基建和多阶段 OPD 后训练拼到一起,用同规模模型约 6% 的预训练成本做出一代 Agent/搜索/推理更强的新旗舰。
大白话版文心 5.1 不是简单“小改版”,而是百度在说:我可以不用再按老办法把每个模型单独重训,而是先训出一个可弹性伸缩的大底座,再抽出最优子网,并用一套更像“训练工厂”的 RL 流水线把 Agent、推理、创作能力统一灌进去。
核心要点• 总参数压到 ERNIE 5.0 的约 1/3、激活参数压到约 1/2 • 同规模模型预训练成本约 6% • Arena Search 1223 分,全球第 4、国产第 1 • AIME26(with tool use) 99.6,官方称仅次于 Gemini 3.1 Pro
价值评级A = 必读级
适用场景关注国产闭源基础模型、Agent 基础设施、低成本训练范式、企业搜索/知识系统的人都该读

文章背景

这篇文章重要,不只是因为“百度又发新模型”,而是因为它出现在一个很敏感的时间点:

  1. 中国基础模型已经从“单纯比参数、比 benchmark”进入“比训练效率、比企业可部署性、比 Agent 能力”的阶段。
  2. OpenAI、Anthropic、Google 在海外把竞争焦点往 agent、tool use、深度搜索、长链路工作流推,百度这里明显是在给出中文版答案。
  3. 文心 5.0 已经先把 Once-For-All 弹性训练、超大统一多模态底座的方向铺好,5.1 则开始兑现“如何把那套昂贵底座变成更便宜、但仍能打的产品代模型”。

所以这不是一篇营销稿那么简单,它本质上是在回答三个问题:

  • 百度怎么把 5.0 的大底座知识继承下来?
  • 百度怎么解决 Agent/RL 训练里最烧钱、最不稳定的系统问题?
  • 百度怎么把 code/reasoning/agent/creative 这些相互打架的能力放进同一个模型,又尽量避免“跷跷板效应”?

完整内容还原

开场结论:5.1 是一代“成本-能力比”模型

原文第一段就把定位说得很直白:ERNIE 5.1 继承 ERNIE 5.0 的预训练基础,但把总参数压缩到约 1/3、激活参数压缩到约 1/2,同时仍在同规模模型中保持领先基础效果,而预训练成本只要同类模型约 6%。

这句话其实有三层意思:

  • 不是从零训一个新模型,而是“继承 5.0 的知识与能力”。
  • 压缩的不是一个小比例,而是对总参数和 active params 都动了大手术。
  • 成本口径不是“比上一代便宜一点”,而是直接强调“同规模模型只用 6% 成本”。这意味着百度最想卖的,不只是榜单分数,而是工业化训练效率。

能力层:百度先端出了能打的 benchmark 结果

官方给出的第一组结果围绕 Agent、知识、推理、深度搜索展开:

  • 在 τ³-bench 和 SpreadsheetBench-Verified 上,ERNIE 5.1 超过 DeepSeek-V4-Pro,官方口径是 Agent 能力接近领先闭源模型。
  • 在 Search Arena 上,ERNIE 5.1 得分 1223,全球第 4、国产第 1。
  • 在 GPQA 和 MMLU-Pro 上,官方称世界知识能力接近领先闭源模型。
  • 在 AIME26(with tool use)上得分 99.6,官方称仅次于 Gemini 3.1 Pro。
  • 在内部评测里,创意写作能力接近 Gemini 3.1 Pro。

这里最该注意的是排序,不是单看某一个分数。百度把“Agent、Search、Reasoning、Creative”放在同一个能力包里呈现,说明它定义的 5.1 已经不是单纯聊天模型,而是面向“复杂工作流执行 + 世界知识检索 + 生成输出”的综合底座。

技术特征 1:多维弹性预训练,不是裁剪,而是先训一棵大树再抽最优子网

这是全篇最关键的技术段。

百度说 ERNIE 5.1 来源于 ERNIE 5.0 的 multi-dimensional elastic sub-model matrix,也就是先在 ERNIE 5.0 时代通过 Once-For-All elastic training framework,一次预训练同时联合优化大量不同深度、不同 expert capacity、不同 routing sparsity 的子模型,再从中抽取最优子网。

和传统做法相比,差异非常大:

  • 传统做法:不同模型规模各训各的,每个尺寸一条训练线。
  • 文心 5.x 做法:先训一个“可弹性伸缩的大母体”,让多个尺寸共享权重与知识,再从这个矩阵里选最优子网。

原文把这套弹性拆成三维:

  1. Elastic depth

    • 训练中随机改变 active Transformer layers 数量。
    • 让不同深度的子模型共享权重。
    • 目的:让模型自己学会深层表示与浅层表示的平衡。
  2. Elastic width / expert capacity

    • 在 MoE 层里动态调整参与 routing 的 expert 数量。
    • 通过动态采样不同 expert 子集,让模型适应 full expert pool 和 reduced expert pool 两种状态。
    • 目标是提高 expert utilization efficiency。
  3. Elastic sparsity

    • 通过 variable Top-k routing,灵活改变被激活的 expert 数量。
    • 激活更少 expert:推理更便宜、解码更快。
    • 激活更多 expert:模型能力更强。
    • 本质上是在 inference overhead 与 performance 之间做动态 trade-off。

这三维合起来,意味着百度不是简单做“蒸馏小模型”,而是在训练阶段就把“模型尺寸可变、路由稀疏度可变、激活代价可变”编码进底座本身。这样 5.1 不是外部压缩结果,而是 5.0 训练范式天然允许“抽一个更高性价比的工作点”。

技术特征 2:全异步、解耦式强化学习训练基建,瞄准的是长链路 Agent 训练

原文第二大块讲的是 RL 基础设施,信息密度很高。

百度在 PaddlePaddle 上做了一个 disaggregated reinforcement learning infrastructure,核心是一个 RL Controller,把四个子系统完全解耦:

  • training
  • inference
  • reward
  • agent loop

并通过网络化高性能数据组件互联,实现 control plane 与 data plane 分离。

这件事的价值在于什么?

传统 RL/agent training 的问题不是只靠“再多堆几张卡”能解:

  • 训练、推理、奖励计算资源类型不同
  • agent loop 有大量长尾任务,资源利用率很不均匀
  • 训练与推理精度不一致、路由不一致,会导致 rollout 不稳定

百度这套架构的解法是:

  • 每个子系统独立部署、独立扩缩容
  • inference/training/reward 可以流水线重叠
  • 不同环节按最优算力配置匹配

这等于把 RL 训练从“一个大一统作业”改造成“可调度的分布式工厂”。

技术特征 3:FP8 训推一致性优化,重点不是省显存,而是减少 RL 里最致命的偏差

原文特别提到两类优化:

  1. unified FP8 low-precision operator library
  2. Rollout Router Replay(R3)优化

直觉上,很多人看 FP8 会以为只是压成本,但这篇文章强调的重点不是“便宜”,而是“训练-推理一致性”。

在 RL,尤其是 MoE + 长链路 agentic RL 里,如果训练时看到的分布和推理 rollout 时的分布不一致,梯度信号就会被噪音污染,模型会越来越不稳。百度说他们通过:

  • two-stage 计算-通信重叠
  • dynamic bit-width communication compression
  • multi-level KV-cache pooling

把 R3 的附加延迟压到接近零,同时把 K3 KL divergence 降低 50%。

虽然原文没有把 K3 的精确定义展开,但信息已经足够明确:百度在强调,它不是只把 RL 训起来,而是在解决“MoE 路由 + 低精度 + rollout 链路”之间的分布偏差问题。这种问题如果不解决,Agent benchmark 再好也很容易在长链任务里失稳。

技术特征 4:异构弹性资源调度,把闲置 CPU 也拉进 Agent 训练流水线

这是一个很工程、但很值钱的点。

原文明确写到:他们用 elastic CPU pooling,把集群里闲置 CPU 资源用于 code sandboxes 和 verifiers 这类 logic-intensive computations,从而降低 training iteration time。

这说明百度训练的是“真 agent 模型”,不是纯 token prediction 模型。因为一旦进入 code sandbox、verifier、tool execution 这类环节,很多开销并不在 GPU 上,而是在 CPU、网络、IO、调度层。

也就是说,百度现在优化的对象不再只是 Transformer 前向/反向本身,而是完整的 agent training pipeline 吞吐率。

技术特征 5:多阶段 RL 管线,以 OPD/MOPD 解决“多能力彼此打架”的老问题

这是原文另一条很硬的技术主线。

百度的判断是:传统后训练按 SFT → Mixed RL 顺序一条线跑,已经越来越难满足大模型能力扩张,因为:

  • 研发迭代太慢
  • 所有能力在一个训练阶段硬融合,会发生严重 multi-objective optimization conflicts
  • 一个能力上升,另一个能力容易回退,出现 seesaw effect

他们提出的方案是以 Multi-Teacher On-Policy Distillation(文中后文具体写作 OPD stage,实质是多教师 on-policy 蒸馏)为中心的四阶段后训练:

  1. Stage 1: Unified SFT

    • 用高质量多域指令数据做统一 SFT。
    • 目标:打好 instruction following 和 tool invocation 底座。
  2. Stage 2: Domain Expert Model Training

    • code、reasoning、agentic tasks 等多条能力线并行训练专家模型。
    • 每个方向单独定 reward 和算法。
    • 目的:避免异构任务互相干扰。
  3. Stage 3: On-Policy Distillation (OPD)

    • 统一 SFT 模型做 student。
    • 多个领域专家做 teachers。
    • student 从自己的 policy 分布采样,再通过 token-level reverse KL 从多个 teacher 学能力。
    • 目的:把不同专家能力并到统一参数空间里。
  4. Stage 4: General Online RL

    • 对开放式聊天、创意写作这类高熵任务,不强行用 OPD 蒸馏。
    • 直接在 post-OPD 模型上做 online RL。
    • 目的:保住 instruction-following、生成多样性和人类偏好对齐,同时不破坏前面学到的专家能力。

这里最有价值的洞察是:百度承认“不是所有能力都适合蒸馏整合”。

高熵任务如果硬做 token-level KL,很容易被过度平滑,导致创作和通用对话味道被磨平。于是他们把“专家能力融合”和“开放式通用能力调优”拆开做。这个决策相当成熟,说明他们不是只会往一个 loss 里塞所有目标。

创意能力段落:官方在证明自己不是只有工程,不是只会写 benchmark

原文最后一块讲创作能力,提到:

  • 创意写作中“灵感—情感—表达”的对齐
  • 长叙事里“逻辑—人物—节奏”的协调控制
  • 专业内容中“知识准确性—风格适配性”的平衡

这一段当然带有营销色彩,但也有一个技术信号:百度已经把 creative quality 看成底座模型的正式 KPI,而不是附带能力。对企业内容平台、写作工具、营销生成器来说,这会直接影响模型选型。

核心技术洞察

1. 真正有价值的不是“模型更小”,而是“训练范式可弹性复用”

ERNIE 5.1 的关键不只是把参数压小,而是证明百度想把“训一个大母体,再抽不同工作点子网”的模式工业化。这个方向如果成立,未来模型代际更新不一定都要从零起大炉重炼。

2. Agent 时代的瓶颈正在从模型架构转向系统架构

全文最重的技术资产之一,其实是 RL Controller、异步解耦、CPU pooling、R3、FP8 一致性这些基础设施。因为长链路 agent 训练的核心难题,已经不只是 loss 设计,而是整条 rollout 工厂怎么稳定跑。

3. 多能力统一模型的难点不是“能不能训进去”,而是“怎么不互相伤害”

百度给出的答案不是把所有数据混一起硬训,而是:专家并行训练 + OPD 融合 + General RL 兜底。这个思路对所有想做“一个模型打天下”的团队都很有参考价值。

实践指南

🟢 立即可用

  1. 重新理解“训练效率”指标

    • 做什么:看模型时,不只盯参数量和榜单,也盯 total params、active params、预训练成本比例、是否支持弹性子网抽取。
    • 为什么:这决定企业长期供给能力和版本迭代速度。
    • 注意:厂商给出的“6% 成本”通常是同规模口径,不等于绝对训练开销只有别人 6%。
  2. 重新评估 Agent 模型基础设施需求

    • 做什么:如果你在做 agent training,要把 CPU、verifier、sandbox、异步调度也算进系统设计。
    • 为什么:真正拖慢训练闭环的,常常不在 GPU 主干本身。
    • 注意:只优化模型前向速度,不一定能提升长链路 RL 吞吐。

🟡 需要适配

  1. OPD/多教师蒸馏范式

    • 适配条件:你的组织同时追求 code/reasoning/creative/agent 多能力统一。
    • 调整方向:把高熵创作类能力与低熵专家任务拆开处理,不要一锅炖。
  2. 弹性预训练范式

    • 适配条件:你有能力维护统一底座,并反复产出不同成本/能力档位子模型。
    • 调整方向:重点不在最终模型多小,而在训练期是否建立足够好的子模型矩阵。

🔴 注意事项

  1. Search Arena 和内部创作评测都不是完整产品现实

    • 搜索榜强,不自动等于企业知识系统就会赢。
  2. “同规模模型约 6% 成本”需要更多外部拆解

    • 这背后可能包含口径选择、训练继承收益和规模比较基准差异。
  3. RL 系统能力强,不等于线上 Agent 稳定性自然成立

    • 训练闭环优化与真实客户任务鲁棒性之间仍有距离。

横向对比

话题本文观点DeepSeek-V4-ProGemini 3.1 Pro / 海外闭源前沿
训练哲学大底座 + 弹性抽子网 + 多阶段融合更强调模型/Agent能力发布节奏更强调顶层能力领先,但很少公开系统细节
Agent 训练强调全异步 RL 基建与系统吞吐公开口径偏产品能力与协议支持多数只露 benchmark,不细讲基础设施
成本叙事预训练成本约同规模 6%更强调能力与性价比,但未给出同类口径海外闭源通常不公开同维度成本
创作能力明确纳入旗舰模型卖点公开叙事偏通用/工具/多模态海外头部模型已把创作能力视作标配

批判性分析

局限性

  1. 很多关键指标仍是官方自报口径

    • 包括成本、创意写作能力对比、若干接近/超过闭源模型的描述。
  2. 缺失更细 benchmark 表

    • 原文没有把 τ³-bench、SpreadsheetBench、GPQA、MMLU-Pro、AIME26 的完整对照表全摊开。
  3. 6% 成本背后的比较口径仍不够透明

    • 是对同 active params、同总参数、还是同最终效果档位比较,外部仍需拆解。

适用边界

  • 如果你关心的是国产闭源模型的长期供给能力,这篇非常重要。
  • 如果你只关心 API 价格和企业案例,这篇还不够,需要等 Create 2026 补更多商业细节。
  • 如果你要复现其核心方法,公开细节仍不足以工程复刻,只能吸收方向和架构理念。

潜在风险

  1. 过度依赖单一统一底座,可能让后续架构切换成本升高。
  2. 多教师蒸馏 + General RL 管线虽然优雅,但工程链极复杂,维护成本高。
  3. Search/Agent 榜单漂亮,不代表企业侧 SLA、成本和长尾稳定性已经同样成熟。

独立观察

  1. ERNIE 5.1 最值得重视的不是某个榜单,而是百度开始公开把“模型训练工厂”当成核心护城河。
  2. 它像是中国闭源基础模型的一次方向声明:未来要赢,不只靠更大参数,而要靠更会组织参数、算力、RL 流水线和多能力融合。
  3. 如果百度后续把这套范式进一步开放到 API 价格、Agent workflow、企业案例层面,文心 5.1 可能会成为国内企业知识系统与搜索增强 Agent 的重要分水岭。