Apr 28, 2026

DeepSeek V4 首日开源+华为芯片：全球AI栈分裂的起点

DeepSeek V4 以 MIT 许可证首日开源，完全运行在华为 Ascend 芯片上，API 定价为 GPT-5.5 的 1/10。这三个条件的同时满足，标志着全球 AI 技术栈分裂从理论变为产品。

DeepSeek V4 的真正冲击不在于它是又一个高性能开源模型，而在于它同时验证了三件事：最宽松的开源许可证、非英伟达硬件上的前沿训练、以及让西方 API 定价显得来自另一个时代的成本结构。2026 年 4 月 24 日，这三个条件同时满足¹²³。

模型发布当天，权重即上架 HuggingFace，许可证为 MIT——比 Llama 的 Apache 2.0 更宽松¹。训练与推理完全运行在华为 Ascend 950PR 芯片上，英伟达和 AMD 未获得预发布优化权限²。API 定价从 Flash 的 $0.14/百万输入 token 起步，Pro 版本输出价 $3.48，约为 GPT-5.5 Pro 的 1/8.6³。

这不是一次普通的技术发布。这是全球 AI 基础设施 stack 开始分裂的一个数据点。

首日 MIT 开源：许可证即战略

V4 发布当天在 HuggingFace 上提供了四个 checkpoint¹：

模型	总参数	激活参数	上下文	精度
V4-Pro-Base	1.6T	49B	1M	FP8 Mixed
V4-Pro (Instruct)	1.6T	49B	1M	FP4 + FP8
V4-Flash-Base	284B	13B	1M	FP8 Mixed
V4-Flash (Instruct)	284B	13B	1M	FP4 + FP8

许可证是 MIT——比 Meta 的 Llama 或 Mistral 的 Apache 2.0 更宽松¹。开发者可以下载权重、用自有数据微调、商业部署，无需通知 DeepSeek。没有使用限制，没有版权费。

下载大小说明部署门槛：Flash 约 160GB，量化后可在 128GB Mac Studio 上运行；Pro 约 865GB，需要 GPU 集群但可通过 API 使用⁴。

价格对比³⁵：

模型	输入 ($/M token)	输出 ($/M token)
DeepSeek V4-Flash	$0.14	$0.28
DeepSeek V4-Pro	$1.74	$3.48
GPT-5.5 Pro	$15.00	$30.00
Claude Opus 4.7	$15.00	$75.00

V4-Pro 输出价格约为 GPT-5.5 Pro 的 1/8.6；V4-Flash 约 1/107³。发布首周 DeepSeek 还给了 V4-Pro 一个 75% 折扣（输入 $0.44、输出 $0.87，持续到 5 月 5 日），同时把 API 缓存命中价格降到原来的 1/10⁶。

这个定价策略的意图很明确：在开发者做技术选型的窗口期，用不可拒绝的价格锚定使用习惯。一旦工作流跑通、集成成本沉没，即使折扣结束，迁移回高价 API 的动力也会大幅下降。这不是在卖模型，这是在买生态份额。

和国内其他实验室的对比

开源节奏即竞争策略

DeepSeek 的首日 MIT 开源，和其他中国模型的发布节奏形成了对比：

MiniMax M2.7 的 API 在 3 月 18 日上线，但权重直到 4 月 12 日才放出——隔了 25 天⁷。更糟的是，许可证明确写着非商用：非商业用途可以按 MIT 风格使用，但商业部署需要 MiniMax 的书面授权⁷。MiniMax 之前的模型（M2、M2.5）是 MIT 或 Modified-MIT，M2.7 反而退步了。HuggingFace 讨论区发售后几天内就积累了几百条批评⁷。

GLM-5.1 来自智谱（Z.ai），API 在 3 月 27 日上线，权重在 4 月 7 日开源——隔了 11 天⁸。许可证是 MIT，这点没问题。但这 11 天的空档很关键：开发者在评估模型时只能用 API，没法自托管。GLM-5 也有类似的节奏——2 月 11 日上线 API，约两周后才放权重⁸。

开源权重发布时间对比

模型	API 上线	权重发布	延迟	许可证
DeepSeek V4	4 月 24 日	4 月 24 日	0 天	MIT
GLM-5.1	3 月 27 日	4 月 7 日	11 天	MIT
MiniMax M2.7	3 月 18 日	4 月 12 日	25 天	非商用

首日开源不是姿态，是战略。在 AI 基础设施竞争进入白热化的阶段，“API 可用”与”权重可下载”之间的时间差，就是平台锁定的窗口期。DeepSeek 把这个窗口压缩到零——不给犹豫期，不给锁定机会。

对比之下，延迟开源的代价是真实的：GLM-5.1 的 11 天空档里，评估者只能用 API 测试；MiniMax M2.7 的 25 天延迟加上非商用限制，直接引发 HuggingFace 社区数百条批评⁷。DeepSeek 选择了一种更激进的路径：用许可证的宽松度换取生态采纳速度。这不是利他主义——这是在开源模型供给过剩的市场中，争夺开发者注意力和部署习惯的最有效手段。

硬件脱钩：从实验到出货

DeepSeek V4 完全运行在华为 Ascend 950PR 芯片上——训练和推理皆是²。这间实验室拒绝了英伟达和 AMD 的预发布优化请求，转而给华为和寒武纪数周的提前访问权⁹。

这不是首次尝试。2025 年初，DeepSeek 曾尝试用 Ascend 910C 训练推理模型 R2，结果反复失败：芯片间通信延迟导致同步崩溃、内存一致性错误损坏训练进度¹⁰。最终退回英伟达 GPU，华为硬件仅用于推理¹⁰。

V4 是第二次尝试。这次成功了。区别不在于硬件迭代了多少，而在于 DeepSeek 证明了：在现有出口管制条件下，非英伟达硬件已经足以支撑前沿模型的完整生命周期。

Ascend 950PR vs. 英伟达²¹¹：

指标	Ascend 950PR	NVIDIA H20	NVIDIA H100	NVIDIA B200
性能对比	2.8× H20	基准	—	—
vs H100 推理	~60%	—	基准	>2× H100
单价	~$6,900	出口受限	$25,000+	$30,000+
2026 年计划产量	75 万片	出口受限	—	—

Ascend 950PR 约达 H100 推理性能的 60%¹¹。这不是平起平坐，但可行——尤其结合 V4 每 token 只激活 3% 参数的稀疏架构。

软件栈是华为的 CANN（Compute Architecture for Neural Networks），CUDA 的替代品。CANN 的成熟度差距是真实的：R2 的训练失败根源是 CANN 的分布式训练不足，而非硬件缺陷¹⁰。V4 的成功表明差距在 2025 年初到 2026 年初间缩小了。结果：一个从头到尾不用英伟达的前沿模型。

架构：为规模买单的效率

V4 保留了 V3 的 DeepSeekMoE 框架，但做了三项结构性改变¹：

1. 混合注意力（CSA + HCA）

V4 用两种交替机制替换了标准注意力：

CSA（压缩稀疏注意力）：压缩 KV 缓存，每个查询只关注 top-k 压缩条目，提供局部细节
HCA（高度压缩注意力）：128 倍压缩率，在压缩表示上执行密集注意力，提供全局概览

CSA 和 HCA 在网络中交替排列。在 1M token 上下文下，V4-Pro 只需要 V3.2 单 token 推理 FLOPs 的 27%，KV 缓存的 10%¹。这不是四舍五入的误差——是结构性的效率提升。

2. Muon 优化器

V4 将大部分参数从 AdamW 切换到 Muon，报告收敛更快、万亿参数训练更稳定¹。AdamW 仅保留给 embedding、预测头和 RMSNorm 权重。峰值学习率 2.0e-4，cosine decay。

3. 流形约束超连接（mHC）

标准残差连接被 mHC 取代，它将残差信号投影到流形上以稳定极深网络中的信号传播¹。

V4 vs. V3.2 在 1M token 上下文¹：

指标	V3.2	V4-Pro	改善
单 token 推理 FLOPs	100%	27%	降低 73%
KV 缓存内存	100%	10%	降低 90%
总参数	671B	1.6T	2.4 倍
激活参数	37B	49B	1.3 倍

反直觉的结果：V4 大了 2.4 倍，但在满上下文下每 token 计算量反而减少了 73%。这个效率曲线意味着什么？它意味着 DeepSeek 可以在性能较弱的硬件上（Ascend 950PR 约为 H100 的 60%）运行一个规模更大的模型，而实际推理成本低于在英伟达硬件上运行一个更小的模型。架构效率不是在实验室里自我欣赏的指标——它是硬件脱钩的前提条件。没有这 73% 的 FLOPs 削减，Ascend 950PR 撑不起 1.6T 参数模型的生产部署。

对英伟达意味着什么

股价反应：市场读到了什么

V4 发布当天，英伟达股价下跌 1.41%¹²。这个数字本身不大，但同期中国芯片股暴涨——中芯国际港股上涨 9.4%，华虹半导体上涨 13%+¹³——说明市场读出的是一个更具体的信号：非美芯片供应链开始具备商业价值，而不仅仅是 DeepSeek 对英伟达的竞争威胁。

一个经常被引用的数字：如果出口管制取消，中国企业今年会购买约 150 万块 H200，约 $300 亿潜在收入¹²。但这个假设本身就在弱化——出口管制没有取消的迹象，而中国 AI 基础设施市场年规模已达 $500 亿，年增长 50%¹²。这笔钱不会消失，只会流向别处。

黄仁勋的担忧：不是销量，是轨迹

英伟达 CEO 黄仁勋在 V4 发布前警告：如果 DeepSeek 针对华为芯片而非美国硬件优化，对美国将是”horrible outcome”¹⁴。这个判断的底层逻辑不在于华为当下的产能——2026 年 Ascend 总算力仅相当于英伟达的 3-5%¹⁴——而在于技术栈迁移的路径依赖。

路径依赖的核心是：每次有像 V4 这样的前沿模型在 Ascend 上出货，下一个中国实验室的迁移成本就降低一次。每次 CANN 改进，从 CUDA 切换的学习曲线就平滑一点。字节和阿里在 2026 年 1 月拿到 950PR 样片，已经在生产环境跑了两个月的基准测试¹⁵。这不是实验室好奇，是大规模部署前的验证。

英伟达的防御：速度 vs. 成本

英伟达在 V4 发布当天推出 Day-0 Blackwell 支持，声称在 Blackwell GPU 上用 NVFP4 每秒可处理 3,500 token¹⁶。技术层面的潜台词是：“你可以在华为上跑，但在我这更快。”

但价格表提供了另一套逻辑。对 Flash 级别的工作负载，英伟达方案贵 35 倍。在推理成本占 AI 运营支出大头的生产环境中，“更快”只有在延迟敏感场景下才值得支付溢价。对于大多数批处理、内容生成和后台推理任务，Ascend 的性能已经够用——而够用就是竞争。

生态分叉：比芯片更深层的问题

真正的问题不是英伟达少卖了多少张卡。400 万+ 开发者建立在 CUDA 上，模型、框架、内核、部署管线都默认英伟达硬件¹⁷。这是一个数十亿美元和数千万人年积累出来的生态护城河。

V4 的意义在于：它证明了这个护城河可以被绕过。如果中国实验室持续在 Ascend + CANN + MindSpore + MindIE 这条线上出货前沿模型，全球 AI 基础设施就会分裂为两个并行生态。西方公司留在 CUDA。中国公司建在 CANN 上。每次分叉加深，重新汇合的成本就增加一分。

V4 不证明分叉不可逆转。但它证明分叉已经发生。

分裂的起点

DeepSeek V4 不会杀死英伟达，这几乎不需要论证。Ascend 950PR 与 Blackwell 之间的性能差距是真实的，CANN 与 CUDA 之间的生态成熟度鸿沟需要多年才能填平——如果能被填平的话。全球绝大多数 AI 训练和推理工作负载仍运行在英伟达硬件上，这一事实短期内不会改变。

但 V4 改变了问题的性质。在此之前，“非美 AI 栈是否可行”是一个理论问题。V4 之后，它变成了一个产品问题：在哪些场景下够用，在哪些场景下不够好，以及不够好之间的差距是缩小还是扩大。

一个从头不用英伟达的前沿模型，使用最宽松的开源许可证，定价让西方 API 看起来像上一个周期的产物——这三件事同时发生，意味着完整的非美 AI 技术栈已经从一个研究概念变成了可用的商业产品。这个栈的效率和成熟度能否在 2027 或 2028 年追平美国栈，取决于 CANN 的迭代速度和中国芯片产能的爬坡节奏。

但更深层的问题是：即使性能差距长期存在，全球 AI 市场是否足以支撑两个并行生态？历史经验——从 x86 vs. ARM 到 iOS vs. Android——表明，技术差异可以长期共存，但前提是市场空间足够大。AI 基础设施市场的规模显然足够。这意味着 V4 标记的分叉并非暂时偏离；它指向结构性重组的开始。

值得持续跟踪的变量，是其他中国实验室的跟进速度，而非 DeepSeek 的下一款模型。当字节、阿里、智谱的旗舰模型也运行在 Ascend 上时，分叉就从个案变成趋势。那个转折点，可能比 V4 本身更值得注意。

参考资料

DeepSeek-V4 技术报告 — 架构细节、CSA/HCA 注意力、Muon 优化器、mHC 连接、基准测试结果：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/resolve/main/DeepSeek_V4.pdf ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹
The Information — DeepSeek 拒绝向英伟达/AMD 提供 V4 预发布优化权限，给华为提前访问：https://www.theinformation.com/ ↩ ↩² ↩³ ↩⁴
Context Studios — “DeepSeek V4: The Open Source Pricing Earthquake”，定价分析 vs GPT-5.5 Pro 和 Claude Opus 4.7：https://www.contextstudios.ai/blog/deepseek-v4-the-open-source-pricing-earthquake ↩ ↩² ↩³ ↩⁴
HuggingFace DeepSeek V4 博客 — checkpoint 大小、部署指南：https://huggingface.co/blog/deepseekv4 ↩
DeepSeek API 文档 — 官方定价，V4 预览发布：https://api-docs.deepseek.com/news/news260424 ↩
Reuters — DeepSeek 首周 75% 折扣，缓存命中价格降至 1/10：https://www.reuters.com/world/china/chinas-deepseek-slashes-prices-new-ai-model-2026-04-27/ ↩
MiniMax M2.7 许可证 — 非商业许可证，权重比 API 晚 25 天发布，HuggingFace 社区强烈反弹：https://github.com/MiniMax-AI/MiniMax-M2.7/blob/main/LICENSE ；发布时间线：https://serenitiesai.com/articles/minimax-m2-7-open-source-self-evolving-benchmarks-pricing-2026 ↩ ↩² ↩³ ↩⁴
GLM-5.1 发布时间线 — API 3 月 27 日，权重 4 月 7 日（延迟 11 天），MIT 许可证：https://z.ai/blog/glm-5.1 ↩ ↩²
Reuters — “DeepSeek withholds latest AI model from US chipmakers including NVIDIA”，2026 年 2 月 25 日：https://www.reuters.com/world/china/deepseek-withholds-latest-ai-model-us-chipmakers-including-nvidia-sources-say-2026-02-25/ ↩
My Written Word — R2 在 Ascend 910C 上的训练失败、软件栈成熟度问题：https://mywrittenword.com/2026/04/05/deepseek-v4-huawei-ascend-chips-moe-architecture-export-controls-2026/ ↩ ↩² ↩³
Tom’s Hardware — Ascend 910C 测试报告：约 60% H100 推理性能：https://www.tomshardware.com/ ↩ ↩²
Parameter.io — 英伟达股价影响，中国 AI 市场 $500 亿数据：https://parameter.io/nvidia-nvda-stock-dips-as-deepseek-v4-opts-for-huawei-over-american-chips/ ↩ ↩² ↩³
Yahoo Finance — V4 发布推动中国芯片股上涨：中芯国际 +9.4%，华虹 +13%：https://finance.yahoo.com/sectors/technology/articles/deepseek-unveils-v4-models-lifts-164531615.html ↩
The Next Web — 黄仁勋在 Dwarkesh Podcast 警告 “horrible outcome”：https://thenextweb.com/news/nvidia-huang-deepseek-huawei-chips-horrible-outcome ↩ ↩²
Neural Network World — 字节/阿里 950PR 样片测试，75 万片产量计划，生态分叉分析：https://neuralnetworkworld.com/deepseek-v4-to-run-on-huawei-chips-sidelining-nvidia/ ↩
NVIDIA Developer Blog — Day-0 Blackwell 支持，V4 上 3,500 tokens/sec：https://developer.nvidia.com/blog/build-with-deepseek-v4-using-nvidia-blackwell-and-gpu-accelerated-endpoints/ ↩
Pulse Mark — CUDA 生态依赖，CANN 替代方案，生态分叉风险分析：https://pulsemark.ai/deepseek-v4-release-multimodal-huawei-cuda/ ↩