官方在报告中明确表示，V4的能力水平仍落后GPT-5.4和Gemini-3.1-Pro，“发展轨迹大约滞后前沿闭源模型3至6个月”

2026-04-24

DeepSeek V4 这次发布，最重要的信息，不是 1.6 万亿参数。

也不是 100 万上下文。

甚至不只是“支持华为昇腾”这件事。

真正值得划线的，是 DeepSeek 自己在报告里写得非常克制的一句判断：

V4 的能力水平，仍落后 GPT-5.4 和 Gemini-3.1-Pro。

它的发展轨迹，大约滞后前沿闭源模型 3 到 6 个月。

这句话的分量很重。

因为它把 V4 的性质说透了：这不是一篇“我们已经全面追平”的胜利宣言。

它更像一次基础设施发布。

重点不是宣称能力完成代际跨越。

而是先把下一阶段真正重要的底座，铺出来。

这不是一次“炫能力”发布，而是一次“重构成本曲线”发布

从表面看，V4 给出的数字已经足够抢眼。

V4-Pro 总参数 1.6T，激活参数 49B。

V4-Flash 总参数 284B，激活参数 13B。

两者都原生支持 100 万 token 上下文。

如果只看这些 headline，很容易把它理解成一次标准的大模型军备竞赛更新。

但 DeepSeek 自己最强调的，并不是“我比谁强了多少”。

而是：在 1M 上下文条件下，V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KV Cache 只有 10%；V4-Flash 更激进，分别压到 10% 和 7%。

这意味着什么？

意味着上下文长度从 128K 扩到 1M，规模接近放大 8 倍，但推理成本没有按传统 Transformer 的方式一起炸掉。

V4 最核心的价值，不是把能力天花板猛拉高。

而是把“长上下文可用”这件事，从展示品往工程现实又推近了一大步。

所以，DeepSeek 才会把它定义成 preview version。

这是一种很少见、也很诚实的产品定位。

它在说：这一代最关键的工作，是先把长程任务、test-time scaling、Agent 场景真正跑起来。

不是先在发布会上把所有人打服。

V4 的关键变化，不是参数稀疏，而是开始对“上下文”动刀

过去两年，DeepSeek 的主线很清楚。

V2、V3 主要是在做参数稀疏化。

总参数越来越大，但每个 token 只激活一小部分专家。

这是 MoE 路线的核心收益。

V4 更值得注意的地方，是它第一次把“稀疏化”推进到 Transformer 更核心的位置：注意力本身。

按照腾讯科技那篇解读，V4 的注意力层主要用了两套组合：CSA 和 HCA。

CSA 可以理解成“先压缩，再挑着看”。

它会先把若干 token 的 KV 缓存压成摘要，再只挑最相关的摘要去算注意力。

HCA 则是更激进的重压缩，把更长的一段上下文合成更粗粒度的表示，再做稠密计算。

两者交替使用，再加上滑动窗口去保留近距离细节。

这背后的方向很明确：

不是让模型把 100 万 token 一视同仁地全看一遍。

而是承认上下文里大部分内容，本来就不值得被同等对待。

先压缩。

再筛选。

最后把计算力留给真正重要的部分。

这其实是在重写“大上下文”的经济学。

以前的难点是：你可以把窗口拉长，但代价高得不适合真实业务。

V4 则是在试图把这个问题，从“理论上能做”推进到“系统上值得做”。

所谓 3 到 6 个月落后，不是自谦，而是在重新定义比较维度

很多人会把那句“落后 3 到 6 个月”理解成保守表态。

但我更愿意把它看成一种坐标系切换。

因为今天闭源前沿模型的竞争，已经不只是 benchmark 的数字游戏。

它比的是一整套东西：

推理能力。

世界知识。

多轮 Agent 稳定性。

工具调用成功率。

长上下文下的成本。

以及背后算力平台、服务交付和产品化体验。

在这个坐标系下，DeepSeek 没有假装自己已经全面持平。

它等于直接承认：能力上仍有差距。

但基础设施效率正在追。

而且追得很快。

这比单纯说“我们又刷新了某个榜单”更重要。

因为它告诉外界：开源模型下一阶段真正有机会逆袭的地方，不一定是先在能力上绝对领先。

而是先把成本、上下文、部署路径和工具链适配做成一个更可扩散的体系。

后训练也换了思路：先分化专家，再把专家收编回一个模型

V4 另一个很值得注意的变化，是后训练范式的切换。

根据参考文章的梳理，V3.2 更像是“混合 RL”的路线：一个模型同时优化多个目标。

V4 则走向另一条路。

先让数学、代码、Agent、指令跟随这些不同方向，各自训练专家模型。

然后再用 On-Policy Distillation，把多个专家蒸馏回一个统一学生模型。

这背后有一个很强的工程判断：

不同能力方向，放在一个模型里同时强化，彼此会打架。

那不如先把每条赛道各自跑深。

再想办法把这些能力重新并回一套权重。

你可以把它理解成：

不是让一个全科生什么都兼顾着学。

而是先培养一群偏科尖子生。

最后再把他们的能力，压进一个能统一交付的系统里。

这对 Agent 特别重要。

因为 Agent 任务不是单一推理题。

它同时涉及代码、工具调用、长上下文、计划分解、文档读写、错误恢复。

如果后训练范式本身不能处理“多能力共存”的冲突，Agent 表现就很难稳定。

DeepSeek 真正着力的一个方向，是 Agent，而不是单点榜单

从公开信息看，V4 对 Agent 做了明显专项优化。

包括把 Agent 当成独立专家方向训练。

把工具调用格式从 JSON 切到带特殊 token 的 XML 结构，以减少转义错误。

还保留了跨轮次推理痕迹，而不是像上一代那样每轮重置。

这几个点连起来看，意思很清楚：

DeepSeek 已经不把模型只当成“答题机器”。

它是在把模型当成一个持续工作的系统组件来调。

这也是为什么 V4 的 benchmark 叙事里，除了知识、数学和代码，还会不断出现 SWE Verified、Terminal Bench、Toolathlon 这种更接近实际 agentic workflow 的评测。

这不意味着它已经赢了。

恰恰相反。

正因为它知道和顶尖闭源模型还有差距，所以它更需要把 Agent 这个最有现实牵引力的战场先打穿。

因为这里既要求能力，也要求成本，更要求工程一致性。

华为昇腾的意义，不只是“国产替代”，而是给 V4 找到了一条现实落地路径

这次发布还有一个不能忽略的信号，是华为昇腾被第一次正式写进硬件验证清单。

这件事的价值，不只是舆论层面的“国产芯片支持了大模型”。

更重要的是：

如果 V4 的重点本来就是把长上下文和 Agent 路线做成可部署、可扩展、可降价的基础设施，那么它就必须找到一条现实算力路径。

报告里提到的细粒度 EP 方案，同时在 Nvidia GPU 和华为 Ascend NPU 上做了验证。

再加上 FP4 / MXFP4 这类低精度格式与昇腾 950PR 的对应关系，外界自然会把它理解成一个更大的信号：

V4 不只是模型架构更新。

它也是一次为下一阶段国产算力承接做接口对齐的准备。

如果后续昇腾超节点真能批量部署，DeepSeek 再把 Pro 价格继续往下打，那这条路径的战略意义会比单次 benchmark 排名更大。

因为那意味着：

模型能力、推理成本、硬件适配、生态可得性，开始进入一个相互咬合的闭环。

所以，V4 最值得记住的，不是“已经追平”，而是“终于把下一步该修的路修出来了”

我觉得，V4 这次发布最成熟的地方，正是它没有把自己包装成一次不切实际的登顶时刻。

它反而用一套很工程化的语言告诉市场：

我们还落后。

但我们知道差距在哪。

而且我们在修一条更长、更硬的路。

这条路包括：

把 1M 上下文做得更便宜。

把注意力机制改成更适合长程任务的形态。

把后训练从“混合强化”改成“专家分化再统一”。

把 Agent 当成主战场而不是边缘附属能力。

把模型架构和硬件平台的协同，提前做到位。

如果说 V3 系列代表的是“开源模型已经能打”。

那么 V4 代表的，更像是“开源模型开始学会怎么长期打”。

它还不是终局。

但它把通往终局的施工图，画得更完整了。

而那句“仍落后 3 到 6 个月”，恰恰是这份施工图里最不应该被忽略的一行字。

因为真正危险的竞争者，往往不是那个最会喊自己赢了的人。

而是那个最清楚自己还差什么、并且已经开始一段一段补齐的人。

参考

原文链接：https://mp.weixin.qq.com/s/BOmYD79Yocm7TJZbC84ErQ
参考来源：腾讯科技《一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片》