Apr 27, 2026

DeepSeek V4：是什么，不是什么，以及为什么它让西方AI睡不着

DeepSeek V4 Pro 发布：1.6万亿参数MoE架构，100万token上下文，MIT开源，价格只有GPT-4的1/50。但它不是又一个GPT杀手，而是一场AI成本结构的革命。

2026年4月24日，DeepSeek 发布了 V4 系列模型。这一次，它带来的不只是更大的参数量，而是一整套让西方 AI 实验室重新审视自己定价策略的架构设计。

DeepSeek V4 是什么

1. 两个版本，两种定位

V4 系列包含两个模型：

V4-Pro：1.6万亿总参数，每次推理激活490亿参数，旗舰级推理能力
V4-Flash：2840亿总参数，每次推理激活130亿参数，成本优化型

两者都支持 100万 token 上下文窗口，输出上限384K token，且都使用 MIT 许可证开源，权重托管在 HuggingFace。

2. MoE 不是噱头，而是工程选择

DeepSeek V4 采用 Mixture-of-Experts (MoE) 架构。简单来说：模型有1.6万亿个参数，但每次处理一个 token 时，只激活其中约3%（49B）的专家子网络。这就像一个拥有1000名专家的公司，每个项目只抽调最相关的30人参与。

这种设计的直接后果是：推理成本对标一个490亿参数的密集模型，但能力接近1.6万亿参数的密集模型。 API 定价约为 $0.10-$0.30 / 百万 token，大致是 GPT-4 的 1/50。

3. 混合注意力：1M 上下文的工程解法

100万 token 上下文不是营销数字。DeepSeek 引入了两层注意力机制的组合：

CSA (Compressed Sparse Attention)：将每 m 个 token 的 KV cache 压缩为单个条目，查询 token 只关注 top-k 压缩条目。这提供了精确的局部上下文检索。
HCA (Heavily Compressed Attention)：以128倍压缩率进行更激进的压缩，然后在压缩表示上执行密集注意力。这提供了廉价的全局上下文感知。

CSA 和 HCA 在网络中交替出现——模型在专注检索和广角感知之间切换。在100万 token 场景下，V4-Pro 只需要 V3.2 的 27% FLOPs 和 10% KV cache。

4. 双模式推理：Think / Non-Think

V4 在 API 层面提供两种模式：

Think 模式：多步推理，8-15秒 deliberation，适合复杂分析和 agentic 工作流
Non-Think 模式：2秒内响应，适合内容生成、摘要、数据提取

这比之前的”Chain of Thought” prompting 更可控，开发者可以根据场景明确选择推理深度。

DeepSeek V4 不是什么

1. 它不是又一个”GPT 杀手”

不要把它简单理解为”中国模型超越了美国模型”。DeepSeek 的竞争力不是在某一个 benchmark 上比 GPT-5 高几个点，而是在 相同能力水平下把成本降低了一个数量级。这是商业模式的差异，不是单纯的技术竞赛。

2. 它不是密集模型的简单放大

1.6万亿参数听起来吓人，但这不是”大力出奇迹”。如果把它当成一个1.6T的密集模型来部署，你会破产。V4 的价值在于证明了 稀疏激活 + 高效路由 可以在不牺牲能力的前提下，把万亿参数模型的推理成本压缩到可接受范围。

3. 它不是 RAG 的终结者

100万 token 上下文确实可以一次性吞入整个代码库或长篇文档，但这不意味着 RAG 会消失。CSA/HCA 本身就是对注意力机制的”检索增强”——它在内部分层选择关注哪些 token。RAG 从外部检索变成了内部路由，形态变了，但问题本质没变。

4. 它不是政府补贴的产物

V4 运行在华为昇腾芯片上，训练成本远低于西方同类模型。这不是因为补贴，而是因为 MoE 架构 + FP8 训练 + 算法-硬件协同设计 genuinely 降低了计算需求。DeepSeek-V3 的全量训练只用了278.8万 H800 GPU 小时，且全程没有不可逆的损失尖峰或回滚。

我们能从 DeepSeek V4 学到什么

1. 架构创新比算力堆砌更有价值

当 OpenAI 和 Google 在买更多 GPU 时，DeepSeek 在做三件事：

优化 attention：让长上下文不再是算力黑洞
改进优化器：从 AdamW 切换到 Muon，加速收敛并提升万亿参数训练的稳定性
设计路由：让模型学会”哪些专家处理哪些 token”

这三件事都不需要更多 GPU，但需要更深入的系统级思考。

2. 开源不是慈善，是商业策略

MIT 许可证 + HuggingFace 权重 + 极低 API 定价，这套组合拳的目的不是”做好事”，而是 快速占领开发者心智。当 V4 成为默认选择时，围绕它的工具链、云服务、企业定制就会形成生态。开源在这里是获客手段，不是终点。

3. “够用就好”的推理哲学

V4-Flash 只有130亿激活参数，但在大多数生产场景中完全够用。这揭示了一个被忽视的趋势：推理成本正在取代模型能力，成为 AI 产品化的最大瓶颈。当 V4-Flash 能以 GPT-4 1/50 的价格完成80%的任务时，剩下的20%能力溢价是否值得，就成了一个商业问题。

4. 注意力机制还可以继续进化

CSA + HCA 的混合设计说明，Transformer 的注意力机制远未到头。从 dense attention → sparse attention → compressed attention，每一次压缩都在挑战”注意力必须是二次复杂度”的假设。如果你在做 AI 基础设施，这是一个值得深入的方向。

写在最后

DeepSeek V4 最可怕的地方不是它的 benchmark 分数，而是它证明了 前沿 AI 能力可以以开源 + 低成本的方式交付。当 GPT-5.5 Pro 输出定价 $30/百万 token 时，V4-Pro 输出只卖 $3.48——不到其 1/8。而 V4-Flash 输入仅 $0.14，约为 GPT-5.5 Pro 输入 $15 的 1/100。这个价差不是折扣，是结构性差异。

西方 AI 巨头现在面临一个选择：继续走闭源高溢价路线，还是被迫降价参与开源竞争？无论哪种选择，DeepSeek V4 都已经改变了游戏规则。

参考：DeepSeek-V4-Pro Technical Report, HuggingFace DeepSeek-V4-Pro, DataCamp DeepSeek V4 Analysis, MorphLLM DeepSeek V4 Guide