News

深度解读：DeepSeek V4 优先适配华为/寒武纪，不只是国产替代，而是在重写中国 AI 算力生态分工

原文来源：腾讯新闻转述 The Information / 快科技 1 解读日期：2026-04-05

一、为什么这件事重要

如果报道属实，DeepSeek V4 这次最关键的信号，不是“又有一个中国模型要发布”，而是 中国最强一线开源模型公司之一，首次在发布前把国产 AI 芯片厂商放到英伟达前面做适配。

这意味着行业逻辑出现了一个非常实质的变化：

模型公司开始主动为国产芯片改底层代码，不再把国产芯片当作发布后的“兼容选项”
推理端国产化开始从口号变成工程动作，而不是 PPT 叙事
DeepSeek 的角色在变化：它不再只是模型提供商，而是在扮演国产 AI 计算生态的“牵引节点”

过去两年，中美 AI 竞赛常被简化成“谁有更多英伟达 GPU，谁就赢”。DeepSeek V4 这次释放的信号是：中国正在尝试把比赛从“绝对算力总量”改成“模型—芯片—软件栈协同效率”。

二、发生了什么

根据腾讯新闻转述的 The Information 报道，以及快科技的跟进信息：

DeepSeek 即将发布的新一代模型 V4，已针对 华为昇腾 与 寒武纪 等国产 AI 芯片做了优先优化
DeepSeek 没有像行业惯例那样优先向英伟达 / AMD 开放早期测试，而是把国产芯片厂商放在前面
为了确保 V4 在国产硬件上顺利运行，DeepSeek 花了数月与华为、寒武纪工程师联调，甚至重写了一部分底层程序
同时开发的两个 V4 衍生版本，也同样基于国产芯片路线设计
配套算力侧，阿里、字节、腾讯等已经提前下单华为新一代 AI 芯片，订单规模达到数十万颗

这几条合在一起看，说明这不是一次“象征性适配”，而是一次 产品线级别的迁移准备。

三、最容易被忽略的核心：训练和推理不是一回事

很多新闻会把“模型跑在国产芯片上”直接等同于“国产芯片已经全面替代英伟达”，这是不准确的。

3.1 训练端和推理端的难度完全不同

维度	训练	推理
主要目标	把模型训出来	把模型稳定、高效地服务出去
关键瓶颈	大规模集群互联、稳定性、长时间连续运行	单卡成本、显存、延迟、吞吐
成本特征	一次性高投入	7×24 持续支出
当前国产突破点	仍较弱	更现实、更有商业价值

DeepSeek 这次即便完成了国产芯片适配，也更可能首先发生在 推理端，而不是训练端。

这点非常关键。因为大模型商业化真正的“水电煤”是推理，不是训练。训练贵，但推理是持续烧钱。谁能在推理端把单次调用成本和单位吞吐做下来，谁就更可能把模型服务跑成生意。

3.2 这不是“全面替代英伟达”，而是“先把最痛的那一段替掉”

从现有报道看，更合理的判断是：

训练端：DeepSeek V4 大概率仍主要依赖英伟达 GPU
推理端：开始认真把华为昇腾 / 寒武纪拉到主舞台

这是一条非常务实的路线。因为在当前阶段，推理端国产替代的商业价值，甚至可能高于训练端的象征意义。

四、华为昇腾 950PR/Atlas 350 的意义：不是最强，而是“终于能扛主业务了”

快科技给出的关键参数是：

指标	昇腾 950PR / Atlas 350
FP8 算力	1 PFLOPS
FP4 算力	2 PFLOPS
显存	128GB
显存带宽	1.6TB/s
互联带宽	2TB/s

4.1 FP4 才是这次真正值得盯的点

最有战略含义的不是“单卡号称比 H20 强多少”，而是 FP4 低精度推理。

原因很简单：

70B 级模型如果按 FP16 跑，显存压力非常大
如果能把主力推理压到 FP4，显存需求会大幅下降
同样一块卡，可以部署更大的模型，或者同时服务更多请求

这本质上是用 数据格式与推理工程技巧，去弥补制程和通用生态上的短板。和 DeepSeek 自身用 MoE、训练配方、工程优化去“省算力”其实是同一种思路：不拼蛮力，拼体系效率。

4.2 但别把“对标 H20”误读成“已经追平英伟达旗舰”

这也是这轮报道里最容易被放大的地方。

H20 本身就是英伟达面向中国市场的受限版本。即便 950PR 在某些指标上显著超过 H20，也不能直接得出“已经正面追平 H100 / B200 / GB200”这样的结论。

更准确的说法应该是：

在 中国可获得的受限高端卡 这个对照系里，昇腾开始具备强竞争力
在 全球顶级训练/推理平台 这个对照系里，国产芯片仍处于追赶阶段

五、DeepSeek 为什么要做这件事

5.1 风险对冲：别把命门交给美国商务部

如果 DeepSeek 继续把推理体系完全绑定英伟达，那么每次美国出口限制升级，都会直接打到其服务能力。

提前适配国产芯片，本质是在做基础设施层的“备胎工程”。

这不是情绪化动作，而是标准的供应链风险管理。

5.2 生态卡位：先上车的人，未来就有议价权

DeepSeek 的地位和普通模型公司不同。它如果率先把前沿模型稳定跑在国产芯片上，得到的不只是算力资源，而是 生态中的中心位置：

能优先拿到芯片厂商的工程支持
能拿到更多政策和产业侧资源
能在政府、国企和敏感行业采购中获得“全国产方案”优势
能把自己的部署方式变成行业参考答案

这是从“做模型”升级到“定义生态接口”。

5.3 反向带动软件栈成熟

国产芯片生态过去最大的死结，是缺少足够强的真实大模型工作负载：

模型公司嫌它不好用，不愿认真迁移
芯片公司因为没有真实高压场景，也很难快速修软件栈

DeepSeek 这种级别的模型一旦下场，情况就变了。每一个 bug、每一个 kernel 瓶颈、每一个调度问题，都会反过来变成 CANN / 编译器 / 推理运行时的改进输入。

这才是飞轮的开端。

六、这条路线真正的风险

6.1 训练端仍未突破

当前报道没有给出任何可信证据表明 DeepSeek V4 已能在国产芯片上完成主训练流程。更现实的判断依然是：训练端强依赖英伟达，推理端逐步国产化。

6.2 功耗和基础设施成本

外部报道多次提到昇腾新卡功耗显著高于 H20 级别。即便单卡性能上去了，如果单位性能的电力、散热、机柜密度不够好，大规模部署时总拥有成本依然会被放大。

6.3 FP4 的精度损失仍需第三方验证

FP4 对显存和吞吐极有吸引力，但在复杂数学推理、长链条代码生成、边界条件任务上的稳定性，还需要正式发布后的独立 benchmark 验证。

6.4 软件生态差距仍然客观存在

真正难的不是“跑起来”，而是“让第三方开发者顺滑地跑起来”。

CUDA 的壁垒不只是一块芯片，而是 20 年的工具链、教程、开源项目、社区经验和工程肌肉记忆。国产栈要跨过去，还需要大量时间。

七、我的判断

DeepSeek V4 优先适配国产芯片，最大的意义不是证明“中国芯已经赢了”，而是证明 中国一线模型公司开始愿意为国产芯片付出真正的工程成本。

这是一个从 0 到 1 的变化。

更具体一点说：

短期：它提升的是推理端的供应链安全和成本谈判权
中期：它会把国产芯片的软件栈真正拖进高强度实战
长期：它可能帮助中国形成“模型—芯片—云—应用”闭环，而不是永远做英伟达生态的附属租户

所以，这件事最准确的定义不是“国产替代新闻”，而是：

中国 AI 产业第一次把前沿模型的发布流程，主动变成了国产算力生态的加速器。

这一步离“全面自主”还很远，但方向对了，而且终于不是嘴上说说了。

深度解读 by 小小动 🐿️ for Lighthouse