DeepSeek V4架构深度解析:MoE + CSA/HCA混合注意力与百万级上下文(已发布)

DeepSeek V4已于2026年4月24日正式发布,并以MIT许可证完全开源,权重发布于Hugging Face。在发布之前,这个模型曾以工程代号"MODEL1"出现在FlashMLA等开源仓库中,引发了大量关于其架构的讨论。如今官方信息已经落地,本文不再做发布前猜测,而是基于官方发布事实,系统解析V4真正的架构设计:MoE(混合专家) + 混合注意力(CSA + HCA) 如何在百万级上下文下实现极致效率。

两个版本:Pro 与 Flash

V4本次发布了两个版本,定位清晰:

版本	总参数	活跃参数	定位
DeepSeek-V4-Pro	1.6万亿(1.6T)	49B	高端推理与智能体编程
DeepSeek-V4-Flash	284B	13B	更快、更低成本的场景

两个版本均采用MoE(Mixture-of-Experts,混合专家)架构。MoE的核心思想是:模型拥有庞大的总参数量(承载知识),但每个token推理时只激活其中一小部分专家(节省算力)。因此Pro虽有1.6T总参数,但单token仅激活49B;Flash则是284B总参数、13B活跃参数。这正是DeepSeek得以在保持强能力的同时把推理成本压到极低的根基。

两个版本的上下文窗口均为100万(1M)token(默认),最大输出约384K token。

核心架构:混合注意力(CSA + HCA)

V4最关键的架构创新,不是发布前传闻里的某种"记忆系统",而是一套混合注意力架构——把两种压缩注意力机制组合使用:

CSA(压缩稀疏注意力,Compressed Sparse Attention):在长序列中只对真正相关的部分做精细注意力计算,通过稀疏化大幅减少需要参与计算的token对。
HCA(高度压缩注意力,Heavily Compressed Attention):对注意力的键值表示做高度压缩,在远程上下文上以更低的显存与算力代价维持信息可达性。

两者协同的工程目标非常明确:让百万级上下文从"理论上能开"变成"成本上可用"。

效率收益(官方数据)

在1M上下文这一最吃资源的场景下,V4的混合注意力带来两项决定性收益:

每token算力 ≈ V3.2的27%:相同长度下,推理所需的计算量大幅下降。
KV Cache显存 ≈ V3.2的10%:长上下文最大的显存瓶颈就在KV Cache,V4把它压到约十分之一。

这意味着同样一块(或一组)GPU,V4能以远低于上一代的成本跑满百万token上下文,而不是在序列变长时被显存和算力成本拖垮。这也是V4能把超长上下文做成默认能力、并把API价格压到极低的根本原因。

仍然真实的技术基底:FP8 与 MoE 路由

除了混合注意力,V4延续并强化了DeepSeek一贯的两项工程优势,这两点在发布后依然成立:

FP8 混合精度

V4在训练与推理中广泛使用FP8低精度数值格式。相比传统的FP16/bfloat16,FP8进一步降低了显存占用与带宽压力,配合精心设计的缩放策略,在保持模型质量的同时显著提升吞吐。这是DeepSeek自V3系列以来持续打磨的能力,在V4上与混合注意力叠加,共同压低单token成本。

MoE 专家路由

MoE的效率取决于路由质量——把每个token准确地分配给最合适的专家。V4在路由策略与负载均衡上持续优化,确保1.6T(Pro)/284B(Flash)的庞大参数能被高效、稳定地调度,避免专家负载倾斜导致的算力浪费。

说明:发布前社区曾流传"Engram记忆系统""DeepSeek稀疏注意力(DSA)单独成卖点""System 2暂停思考"等包装,这些并非V4官方确认的架构特性。V4真正用来实现低成本超长上下文的,是上文的CSA + HCA混合注意力。

与 V3 / V3.2 的对比

特性	DeepSeek-V3.2	DeepSeek-V4 (已发布)	变化
架构	MoE + MLA	MoE + 混合注意力(CSA+HCA)	注意力机制升级
版本	单一旗舰	Pro(1.6T/49B) + Flash(284B/13B)	双版本分层
上下文	较短	100万 token(默认)	长上下文成为默认能力
每token算力(1M)	基准	≈ V3.2的27%	大幅下降
KV Cache显存(1M)	基准	≈ V3.2的10%	大幅下降
数值精度	FP8 等	FP8(延续强化)	持续优化
许可证	开源	MIT(开源)	开源

可以看到,V4不是简单地"把上下文调大",而是从注意力机制层面重写了长上下文的成本结构,让百万token从昂贵的实验性能力变成日常可用的默认能力。

真实基准成绩

V4-Pro发布后的实测基准(非"预期/目标"):

基准	成绩	说明
SWE-bench Verified	80.6%	开源模型最高,与Gemini 3.1 Pro并列
LiveCodeBench Pass@1	93.5	真实编程能力
Codeforces 评分	3206	竞赛级编程
MMLU-Pro	87.5%	综合知识推理
GPQA Diamond	90.1%	研究生级科学问题
GSM8K	92.6%	数学应用题
Terminal-Bench 2.0	67.9%	终端/智能体任务

其中SWE-bench Verified的80.6%尤为关键——这是衡量"能否真正修复真实代码仓库中issue"的硬指标,V4在开源模型中拿到最高分,与闭源前沿模型Gemini 3.1 Pro并列。这与V4把架构重心放在智能体编程 + 百万上下文上的定位完全一致:一次性装下整个代码库,再用强编程能力跨文件理解与修改。

API 定价

V4的价格在已下调约75%后处于长期低位:

版本	输入(每百万token)	输出(每百万token)
V4-Pro	$0.435	$0.87
V4-Flash	$0.14	$0.28

相比闭源前沿模型,V4在保持同档能力的同时,价格通常便宜约5–30倍,这让大规模、长上下文、智能体编程类工作负载的成本结构发生根本变化。

如何使用

V4已经可以直接使用,无需等待:

chat.deepseek.com:提供专家模式(Expert Mode)与即时模式(Instant Mode)。
官方 API:模型名可用 deepseek-v4-pro。注意旧模型 deepseek-chat 与 deepseek-reasoner 将于2026年7月24日退役,请及时迁移。
Atlas Cloud:同步提供V4访问。

API调用示例(伪代码):

# 调用 V4-Pro,利用百万 token 上下文一次性装入整个代码库
response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "你是一个资深工程师,负责跨文件重构。"},
        {"role": "user", "content": whole_repo_as_text},  # 可达约 1M token
    ],
)

结论

DeepSeek V4以一种务实而非炫技的方式定义了下一代开源旗舰:

MoE双版本:Pro(1.6T/49B)面向高端推理与智能体编程,Flash(284B/13B)面向高速低成本。
CSA + HCA混合注意力:把百万token上下文的每token算力压到约V3.2的27%、KV Cache显存压到约10%,让超长上下文从昂贵实验变成日常默认能力。
强编程能力:SWE-bench Verified 80.6%,开源最高,与Gemini 3.1 Pro并列。
完全开源(MIT) + 极低价格:Pro $0.435/$0.87、Flash $0.14/$0.28(每百万token)。

工程代号"MODEL1"的时代已经结束,V4作为正式发布、可立即使用的开源模型,把"低成本超长上下文 + 智能体编程"真正交付到了开发者手中。

信息来源

以下为DeepSeek官方发布(2026-04-24)及相关公开信息:

DeepSeek 官方网站
DeepSeek 在 Hugging Face 的开源权重
chat.deepseek.com / 官方 API 文档 / Atlas Cloud

免责声明:模型架构与定价以DeepSeek官方发布为准;部分第三方基准数据可能随评测更新而变化。

最后更新: 2026年4月25日

DeepSeek V4架构深度解析:MoE + CSA/HCA混合注意力与百万级上下文(已发布)

DeepSeek V4架构深度解析:MoE + CSA/HCA混合注意力与百万级上下文(已发布)

两个版本:Pro 与 Flash

核心架构:混合注意力(CSA + HCA)

效率收益(官方数据)

仍然真实的技术基底:FP8 与 MoE 路由

FP8 混合精度

MoE 专家路由

与 V3 / V3.2 的对比

真实基准成绩

API 定价

如何使用

结论

信息来源

立即体验 DeepSeek