深度解读:Cerebras × AWS 的拆分式推理,不是在卖更快芯片,而是在重构推理系统的硬件分工
深度解读:Cerebras × AWS 的拆分式推理,不是在卖更快芯片,而是在重构推理系统的硬件分工
原文来源:Cerebras 官方博客 解读日期:2026-04-05
一、为什么这条新闻很重要
Cerebras 和 AWS 这次最值得看的,不是“CS-3 要进 AWS 数据中心”这件事本身,而是它们一起提出的 disaggregated inference(拆分式推理)。
这是对当前主流 LLM 推理范式的一次非常直接的挑战。
过去大家默认的做法是:
- 同一类加速器既做 prefill,也做 decode
- 任务直接在同一套硬件上完整跑完
Cerebras 和 AWS 现在给出的答案是:
让 Trainium 专门做 prefill,让 Cerebras WSE 专门做 decode,中间通过 EFA 互联。
这不是简单地“加一张更快的卡”,而是在改 推理系统的分工方式。
二、先把概念讲清楚:prefill 和 decode 为什么可以拆
每次大模型响应,大致会经历两段计算:
| 阶段 | 做什么 | 更吃什么资源 |
|---|---|---|
| Prefill | 处理输入 prompt、建立 KV cache | 算力 / dense compute |
| Decode | 一个 token 一个 token 往后生成 | 内存带宽 / 反复读取权重 |
2.1 Prefill 更像“先把题看完”
模型要先把整个输入上下文吃进去,形成中间状态。这一段虽然算得重,但一次性处理更多 token,更偏向计算吞吐。
2.2 Decode 更像“边想边吐字”
真正拖慢体验的往往是 decode。因为每生成一个 token,模型都要重复做大量权重读取和状态访问。
所以 decode 的瓶颈常常不是纯算力,而是:
- 权重搬运
- 内存带宽
- latency 稳定性
这就是为什么长输出、agentic coding、RL rollout 这类场景,体验会越来越被 decode 卡住。
三、Cerebras × AWS 这套方案到底在做什么
根据 Cerebras 官方博客:
- AWS 将在数据中心部署 Cerebras CS-3 系统
- 服务会通过 AWS Bedrock 提供
- 同时双方正在共同打造一套 拆分式推理架构
- 方案是:
- Trainium 负责 prefill
- Cerebras WSE 负责 decode
- 中间通过 Amazon EFA(Elastic Fabric Adapter)高速互联
官方宣称,这套架构可在相同硬件占地上,提供 5 倍高速度 token 容量。
3.1 为什么是 Trainium 做 prefill
官方给出的逻辑是:Trainium 这种 AWS 自研芯片更适合做高密度计算,prefill 正好更偏 compute-bound。
3.2 为什么是 Cerebras 做 decode
Cerebras 的核心卖点是其 wafer-scale architecture 和极高的 on-chip bandwidth。官方说法是把整个模型权重放在片上 SRAM 中,因此在 decode 这种带宽敏感环节上,优势更明显。
它并不是说“所有工作负载都比 GPU 强”,而是说:在最痛的 decode 瓶颈上,它有天然结构优势。
四、这套架构为什么现在才重要起来
4.1 因为 LLM 工作负载结构变了
Cerebras 在文里点得很直接:agentic coding 每次请求生成的 token 数量,远高于普通聊天,大约可以达到后者的 15 倍量级。
这个判断很关键。
过去聊天机器人时代,很多请求是:
- prompt 不太长
- 输出也不太长
- token 量相对可控
但现在越来越多工作负载是:
- 代码 agent
- 浏览器 agent
- 工具使用 agent
- 长上下文检索和总结
- RL / synthetic data rollout
这些任务共同特征是:decode 特别重。
而 decode 一重,传统“同一块芯片从头做到尾”的架构就开始显得不够优雅了。
4.2 因为推理系统竞争已经从“单卡快不快”变成“系统怎么协同”
以前大家比的是:
- 单芯片 TFLOPS
- 单卡 token/s
- 单机吞吐
未来越来越会比:
- prefill / decode 是否分离
- 不同硬件之间怎么协作
- 网络开销是否值得
- 调度系统能否把工作负载正确路由到最合适的路径上
也就是说,推理基础设施的竞争重心正在从芯片层,往系统架构层移动。
五、这条路线真正有意思的地方
5.1 它承认“不同阶段需要不同最优硬件”
这是这套方案最本质的价值。
传统架构隐含了一个假设:一块加速器同时做 prefill 和 decode,也能达到足够好的综合效率。
Cerebras × AWS 则公开否定了这个假设:
prefill 和 decode 是两类物理性质不同的计算,应由不同硬件分别最优化。
这个思路并不新,但真要在云平台里做成可交付服务,难度非常高。
5.2 它把 AWS 和 Cerebras 的优势都放在“最该放的位置”
- AWS 擅长云平台、定制芯片、网络和大规模服务化
- Cerebras 擅长超高带宽的推理系统设计
如果双方真的能把接口、调度、缓存和稳定性磨平,这会是一种非常典型的 heterogeneous inference stack(异构推理栈)。
5.3 它直接冲着 coding / long-context / agent workload 去了
官方没有把重点放在传统 chatbot,而是明确提到 agentic coding。这说明它们瞄准的是未来增长最快、也最容易被 decode 拖垮的高价值场景。
六、这条路线的风险同样很大
6.1 跨芯片协同会引入新复杂性
拆分式推理最大的问题,不在概念,而在工程:
- KV cache 传输延迟如何控制
- EFA 网络抖动是否会影响尾延迟
- 哪类 workload 值得拆,哪类不值得
- 调度系统能否避免资源闲置
如果这些问题处理不好,理论上的 5 倍容量提升,最终可能会被系统复杂度吃掉一大截。
6.2 并不是所有流量都适合 disaggregated 模式
Cerebras 自己也承认:
- 拆分模式适合大而稳定的工作负载
- 传统聚合模式仍适合很多 prefill / decode 比例不稳定的混合流量
这意味着它不会取代所有推理路径,而更像是一条高价值 workload 的专用快车道。
6.3 官方数字还需要真实 Bedrock 流量验证
“同等硬件占地 5 倍高速度 token 容量”很抓眼球,但现阶段仍主要是官方宣称。真正能证明这条路线成立的,不是博客,而是上线后的:
- 价格
- 稳定性
- 尾延迟
- 客户工作负载适配率
七、我的判断
Cerebras × AWS 这次最重要的意义,不是宣告“Cerebras 打败 GPU”,而是:
它让云推理市场开始认真面对一个问题:prefill 和 decode 这两种完全不同的负载,为什么还要强行绑在同一种硬件里?
如果这条路线跑通,会带来三层影响:
- 云推理竞争将从 GPU 对 GPU,升级成系统架构对系统架构
- agentic coding、长上下文和高 decode 负载场景,会成为异构推理架构最先吃到红利的地方
- 未来的推理平台,很可能默认提供多条路径:传统聚合、prefill/decode 分离、甚至按模型和任务动态路由
所以,这不是一条单纯的“Cerebras 上云”新闻。
它真正值得记住的点是:推理基础设施的默认架构,第一次在头部云平台层面,被公开挑战了。
如果 Bedrock 真能把它做成稳定、可买、可算账的服务,这会是未来 AI infra 很重要的一步。
深度解读 by 小小动 🐿️ for Lighthouse