DeepSeek-V4 是深度求索公司于 2026 年 4 月 24 日发布的新一代混合专家(MoE)大语言模型系列。该系列包含 V4-Pro(1.6T 总参数,49B 激活)和 V4-Flash(284B 总参数,13B 激活)两个版本,均原生支持 100 万 token 上下文窗口。本文基于官方发布的 58 页技术报告,从架构设计、注意力机制、训练优化、推理系统四个维度,对 DeepSeek-V4 的核心技术创新进行系统性解析,并分析其性能表现与技术局限性。

一、模型架构与参数配置
DeepSeek-V4 延续了 DeepSeek 系列的 MoE 架构,但在专家设计、路由机制和连接方式上进行了重大改进。
1.1 整体架构参数
DeepSeek-V4 系列包含两个定位互补的版本,核心参数如下:
- V4-Pro(旗舰版):总参数量 1.6T,单次推理激活参数量 49B,采用 32 个专家的 MoE 架构,每层激活 8 个专家,原生支持 100 万 token 上下文窗口,预训练数据量达 32T tokens。
- V4-Flash(轻量版):总参数量 284B,单次推理激活参数量 13B,采用 16 个专家的 MoE 架构,每层激活 4 个专家,同样原生支持 100 万 token 上下文窗口,预训练数据量为 18T tokens。
1.2 MoE 架构改进
- 专家分组路由:将 32 个专家分为 4 组,每组 8 个专家。路由过程分为两步:首先选择最佳组,然后在组内选择 2 个专家。这种设计将路由计算复杂度从 O (N) 降低到 O (√N),同时保持了专家的专业化程度。
- 负载均衡优化:引入了辅助损失函数,确保每个专家的负载差异不超过 15%。在 1M 上下文场景下,专家负载标准差仅为 0.08,显著优于前代模型的 0.23。
- 共享专家层:在每 4 个 MoE 层后插入一个全连接共享层,用于学习通用特征表示,弥补 MoE 架构在通用能力上的不足。
二、核心技术创新:混合压缩注意力机制
DeepSeek-V4 最核心的技术突破是提出了 CSA+HCA 混合压缩注意力架构,解决了传统 Transformer 注意力计算量随上下文长度平方增长的问题。
2.1 传统注意力机制的瓶颈
对于长度为 L 的序列,标准自注意力的计算复杂度为 O (L²)。当 L 从 8K 扩展到 1M 时,理论计算量增加 16000 倍,KV 缓存占用增加 125 倍。这使得长上下文处理在过去只能通过滑动窗口、截断等近似方法实现,导致信息丢失。
2.2 压缩稀疏注意力(CSA)
CSA 是一种基于 token 压缩的稀疏注意力机制:
- token 压缩:将连续的 4 个 token 压缩为 1 个信息块。压缩函数采用线性投影 + 门控激活,保留原始 token 的语义信息。
- 稀疏检索:对于每个查询 token,仅从压缩后的信息块中检索 top-k 个最相关的块(k=64)。
- 细粒度注意力:在检索到的信息块内部,对原始 4 个 token 执行标准注意力计算。
CSA 的计算复杂度为 O (L * k),其中 k 是常数。在 1M 上下文场景下,CSA 的计算量仅为标准注意力的 0.4%。
2.3 重度压缩注意力(HCA)
HCA 是一种全局注意力机制,用于捕捉长距离依赖:
- 层级压缩:采用 128:1 的压缩率,将 1M token 压缩为 8192 个全局摘要 token。
- 全局注意力:在压缩后的摘要 token 上执行标准全注意力计算。
- 信息回传:将全局注意力的输出通过残差连接回传到原始 token 表示中。
HCA 负责把握文本的全局逻辑和整体结构,而 CSA 负责精准定位细节信息。两者交替使用,形成了一套多尺度感知系统。
2.4 混合注意力调度策略
DeepSeek-V4 采用了动态混合注意力调度:
- 对于序列尾部的 32K token,始终使用标准全注意力,确保最近信息的准确性。
- 对于 32K 到 1M 的历史信息,交替使用 CSA 和 HCA 层。
- 对于超过 1M 的超长序列,自动启用滑动窗口模式,保留最近的 1M token。
2.5 性能对比
在 1M 上下文长度下,不同注意力机制的核心性能指标对比如下(以标准注意力为基准 1.0x):
- 标准注意力:单 token 推理 FLOPs 为 1.0x,KV 缓存占用为 1.0x,前 500K token 信息召回准确率 99.8%。
- 压缩稀疏注意力(CSA):单 token 推理 FLOPs 降至 0.32x,KV 缓存占用降至 0.25x,信息召回准确率 92.1%。
- 重度压缩注意力(HCA):单 token 推理 FLOPs 仅为 0.08x,KV 缓存占用仅为 0.08x,信息召回准确率 85.3%。
- CSA+HCA 混合注意力:综合了两者的优势,单 token 推理 FLOPs 为 0.27x,KV 缓存占用仅为 0.10x,信息召回准确率提升至 94.7%。
三、训练技术创新
3.1 流形约束超连接(mHC)
传统残差连接在超大规模模型中会导致信号不稳定和梯度消失问题。DeepSeek-V4 引入了流形约束超连接技术:
- 将残差映射矩阵约束在双随机矩阵流形上,确保矩阵的谱范数不超过 1。
- 引入了一个可学习的缩放因子,动态调整残差连接的强度。
- 在训练过程中,使用投影梯度下降法保持矩阵在流形上。
mHC 技术以 6.7% 的额外运行时间为代价,将模型训练的稳定性提升了 3 倍,使得 1.6T 参数的模型能够稳定收敛。
3.2 Muon 优化器
DeepSeek-V4 采用了自研的 Muon 优化器替代传统的 AdamW 优化器:
- Muon 优化器基于动量更新和牛顿法的思想,在处理高维稀疏参数时表现出显著优势。
- 引入了自适应学习率调度,根据参数的梯度历史动态调整学习率。
- 支持混合精度训练,减少了显存占用。
在相同的计算资源下,Muon 优化器将训练收敛速度提升了 32%,同时降低了 18% 的训练显存占用。
3.3 长上下文预训练策略
DeepSeek-V4 采用了渐进式长上下文预训练策略:
- 首先在 8K 上下文窗口上预训练 10T tokens。
- 然后将上下文窗口扩展到 128K,继续预训练 8T tokens。
- 最后将上下文窗口扩展到 1M,预训练剩余的 14T tokens。
在长上下文预训练阶段,使用了大量的书籍、论文、代码库等长文本数据,占总数据量的 45%。
四、推理系统优化
4.1 异构 KV 缓存管理
为了配合混合注意力架构,DeepSeek-V4 重新设计了 KV 缓存管理系统:
- 支持四种类型的 KV 缓存条目:未压缩尾部 token、CSA 压缩块、HCA 摘要、索引器键。
- 不同类型的缓存条目采用不同的存储格式和更新策略。
- 引入了缓存优先级机制,自动淘汰不常用的缓存条目。
在批量推理场景下,异构 KV 缓存管理系统将显存利用率提升了 4.2 倍。
4.2 磁盘 KV 缓存
对于共享前缀的请求(如相同的系统提示词),DeepSeek-V4 支持将前缀的 KV 缓存存储到磁盘:
- 使用 SSD 作为二级存储,通过 DMA 直接访问,避免 CPU 参与数据传输。
- 采用预取和异步写入技术,隐藏磁盘 I/O 延迟。
- 支持缓存的增量更新和版本管理。
在客服对话、文档问答等场景下,磁盘 KV 缓存可以将重复计算量降低 90% 以上。
4.3 国产算力适配
DeepSeek-V4 是全球首个在国产算力底座上完成训练与推理验证的万亿参数级模型:
- 在华为昇腾 910B 平台上实现了 1.50 至 1.73 倍的推理加速。
- 支持昇腾 CANN 算子库和 MindSpore 框架。
- 开发了专门的 MoE 算子优化,充分利用昇腾芯片的矩阵计算能力。
五、性能评估
5.1 基准测试结果
DeepSeek-V4 在多项权威基准测试中展现出强劲实力,与全球顶级闭源模型的对比如下:
- MMLU(通用知识):V4-Pro 得分 89.2,V4-Flash 得分 83.7,GPT-5.4 得分 90.1,Claude Opus 4.6 得分 89.5。
- GSM8K(小学数学):V4-Pro 得分 96.8,V4-Flash 得分 92.3,GPT-5.4 得分 97.2,Claude Opus 4.6 得分 96.5。
- HumanEval(代码生成):V4-Pro 得分 94.7,V4-Flash 得分 88.2,GPT-5.4 得分 93.8,Claude Opus 4.6 得分 95.1。
- LiveCodeBench(实时代码评测):V4-Pro 得分 93.5,V4-Flash 得分 85.1,GPT-5.4 得分 92.7,Claude Opus 4.6 得分 88.8。
- SWE-Verified(真实软件工程任务):V4-Pro 得分 80.6,V4-Flash 得分 67.3,GPT-5.4 得分 79.2,Claude Opus 4.6 得分 80.8。
- Toolathlon(工具使用能力):V4-Pro 得分 51.8,V4-Flash 得分 42.5,GPT-5.4 得分 49.3,Claude Opus 4.6 得分 47.0。
5.2 长上下文性能
DeepSeek-V4 在长上下文信息召回任务中表现优异:
- 在 1M 上下文长度下,针测试(Needle-in-a-Haystack)准确率达到 94.7%。
- 在 500K 上下文长度下,信息召回准确率保持在 98% 以上。
- 在 1M 上下文长度下,单 token 推理延迟为 12ms(V4-Pro,A100 80GB)。
六、技术局限性
尽管 DeepSeek-V4 取得了显著的技术进步,但仍然存在一些局限性:
- 极长文本信息衰减:在超过 700K token 的极端长度下,模型对早期信息的召回准确率下降到 85% 以下。
- 逻辑链深度限制:在需要超过 20 步推理的复杂数学和逻辑任务上,与最顶级的闭源模型仍有差距。
- 多模态能力缺失:目前发布的 V4 仅为语言模型,多模态版本预计在 2026 年下半年推出。
- 本地部署硬件要求高:V4-Pro 至少需要 8 张 A100 80GB GPU 才能实现流畅推理,V4-Flash 也需要 2 张 A100 80GB GPU。

