官方在报告中明确表示,V4的能力水平仍落后GPT-5.4和Gemini-3.1-Pro,“发展轨迹大约滞后前沿闭源模型3至6个月”
DeepSeek V4 这次发布,最重要的信息,不是 1.6 万亿参数。
也不是 100 万上下文。
甚至不只是“支持华为昇腾”这件事。
真正值得划线的,是 DeepSeek 自己在报告里写得非常克制的一句判断:
V4 的能力水平,仍落后 GPT-5.4 和 Gemini-3.1-Pro。
它的发展轨迹,大约滞后前沿闭源模型 3 到 6 个月。
这句话的分量很重。
因为它把 V4 的性质说透了:这不是一篇“我们已经全面追平”的胜利宣言。
它更像一次基础设施发布。
重点不是宣称能力完成代际跨越。
而是先把下一阶段真正重要的底座,铺出来。
这不是一次“炫能力”发布,而是一次“重构成本曲线”发布
从表面看,V4 给出的数字已经足够抢眼。
V4-Pro 总参数 1.6T,激活参数 49B。
V4-Flash 总参数 284B,激活参数 13B。
两者都原生支持 100 万 token 上下文。
如果只看这些 headline,很容易把它理解成一次标准的大模型军备竞赛更新。
但 DeepSeek 自己最强调的,并不是“我比谁强了多少”。
而是:在 1M 上下文条件下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV Cache 只有 10%;V4-Flash 更激进,分别压到 10% 和 7%。
这意味着什么?
意味着上下文长度从 128K 扩到 1M,规模接近放大 8 倍,但推理成本没有按传统 Transformer 的方式一起炸掉。
V4 最核心的价值,不是把能力天花板猛拉高。
而是把“长上下文可用”这件事,从展示品往工程现实又推近了一大步。
所以,DeepSeek 才会把它定义成 preview version。
这是一种很少见、也很诚实的产品定位。
它在说:这一代最关键的工作,是先把长程任务、test-time scaling、Agent 场景真正跑起来。
不是先在发布会上把所有人打服。
V4 的关键变化,不是参数稀疏,而是开始对“上下文”动刀
过去两年,DeepSeek 的主线很清楚。
V2、V3 主要是在做参数稀疏化。
总参数越来越大,但每个 token 只激活一小部分专家。
这是 MoE 路线的核心收益。
V4 更值得注意的地方,是它第一次把“稀疏化”推进到 Transformer 更核心的位置:注意力本身。
按照腾讯科技那篇解读,V4 的注意力层主要用了两套组合:CSA 和 HCA。
CSA 可以理解成“先压缩,再挑着看”。
它会先把若干 token 的 KV 缓存压成摘要,再只挑最相关的摘要去算注意力。
HCA 则是更激进的重压缩,把更长的一段上下文合成更粗粒度的表示,再做稠密计算。
两者交替使用,再加上滑动窗口去保留近距离细节。
这背后的方向很明确:
不是让模型把 100 万 token 一视同仁地全看一遍。
而是承认上下文里大部分内容,本来就不值得被同等对待。
先压缩。
再筛选。
最后把计算力留给真正重要的部分。
这其实是在重写“大上下文”的经济学。
以前的难点是:你可以把窗口拉长,但代价高得不适合真实业务。
V4 则是在试图把这个问题,从“理论上能做”推进到“系统上值得做”。
所谓 3 到 6 个月落后,不是自谦,而是在重新定义比较维度
很多人会把那句“落后 3 到 6 个月”理解成保守表态。
但我更愿意把它看成一种坐标系切换。
因为今天闭源前沿模型的竞争,已经不只是 benchmark 的数字游戏。
它比的是一整套东西:
推理能力。
世界知识。
多轮 Agent 稳定性。
工具调用成功率。
长上下文下的成本。
以及背后算力平台、服务交付和产品化体验。
在这个坐标系下,DeepSeek 没有假装自己已经全面持平。
它等于直接承认:能力上仍有差距。
但基础设施效率正在追。
而且追得很快。
这比单纯说“我们又刷新了某个榜单”更重要。
因为它告诉外界:开源模型下一阶段真正有机会逆袭的地方,不一定是先在能力上绝对领先。
而是先把成本、上下文、部署路径和工具链适配做成一个更可扩散的体系。
后训练也换了思路:先分化专家,再把专家收编回一个模型
V4 另一个很值得注意的变化,是后训练范式的切换。
根据参考文章的梳理,V3.2 更像是“混合 RL”的路线:一个模型同时优化多个目标。
V4 则走向另一条路。
先让数学、代码、Agent、指令跟随这些不同方向,各自训练专家模型。
然后再用 On-Policy Distillation,把多个专家蒸馏回一个统一学生模型。
这背后有一个很强的工程判断:
不同能力方向,放在一个模型里同时强化,彼此会打架。
那不如先把每条赛道各自跑深。
再想办法把这些能力重新并回一套权重。
你可以把它理解成:
不是让一个全科生什么都兼顾着学。
而是先培养一群偏科尖子生。
最后再把他们的能力,压进一个能统一交付的系统里。
这对 Agent 特别重要。
因为 Agent 任务不是单一推理题。
它同时涉及代码、工具调用、长上下文、计划分解、文档读写、错误恢复。
如果后训练范式本身不能处理“多能力共存”的冲突,Agent 表现就很难稳定。
DeepSeek 真正着力的一个方向,是 Agent,而不是单点榜单
从公开信息看,V4 对 Agent 做了明显专项优化。
包括把 Agent 当成独立专家方向训练。
把工具调用格式从 JSON 切到带特殊 token 的 XML 结构,以减少转义错误。
还保留了跨轮次推理痕迹,而不是像上一代那样每轮重置。
这几个点连起来看,意思很清楚:
DeepSeek 已经不把模型只当成“答题机器”。
它是在把模型当成一个持续工作的系统组件来调。
这也是为什么 V4 的 benchmark 叙事里,除了知识、数学和代码,还会不断出现 SWE Verified、Terminal Bench、Toolathlon 这种更接近实际 agentic workflow 的评测。
这不意味着它已经赢了。
恰恰相反。
正因为它知道和顶尖闭源模型还有差距,所以它更需要把 Agent 这个最有现实牵引力的战场先打穿。
因为这里既要求能力,也要求成本,更要求工程一致性。
华为昇腾的意义,不只是“国产替代”,而是给 V4 找到了一条现实落地路径
这次发布还有一个不能忽略的信号,是华为昇腾被第一次正式写进硬件验证清单。
这件事的价值,不只是舆论层面的“国产芯片支持了大模型”。
更重要的是:
如果 V4 的重点本来就是把长上下文和 Agent 路线做成可部署、可扩展、可降价的基础设施,那么它就必须找到一条现实算力路径。
报告里提到的细粒度 EP 方案,同时在 Nvidia GPU 和华为 Ascend NPU 上做了验证。
再加上 FP4 / MXFP4 这类低精度格式与昇腾 950PR 的对应关系,外界自然会把它理解成一个更大的信号:
V4 不只是模型架构更新。
它也是一次为下一阶段国产算力承接做接口对齐的准备。
如果后续昇腾超节点真能批量部署,DeepSeek 再把 Pro 价格继续往下打,那这条路径的战略意义会比单次 benchmark 排名更大。
因为那意味着:
模型能力、推理成本、硬件适配、生态可得性,开始进入一个相互咬合的闭环。
所以,V4 最值得记住的,不是“已经追平”,而是“终于把下一步该修的路修出来了”
我觉得,V4 这次发布最成熟的地方,正是它没有把自己包装成一次不切实际的登顶时刻。
它反而用一套很工程化的语言告诉市场:
我们还落后。
但我们知道差距在哪。
而且我们在修一条更长、更硬的路。
这条路包括:
把 1M 上下文做得更便宜。
把注意力机制改成更适合长程任务的形态。
把后训练从“混合强化”改成“专家分化再统一”。
把 Agent 当成主战场而不是边缘附属能力。
把模型架构和硬件平台的协同,提前做到位。
如果说 V3 系列代表的是“开源模型已经能打”。
那么 V4 代表的,更像是“开源模型开始学会怎么长期打”。
它还不是终局。
但它把通往终局的施工图,画得更完整了。
而那句“仍落后 3 到 6 个月”,恰恰是这份施工图里最不应该被忽略的一行字。
因为真正危险的竞争者,往往不是那个最会喊自己赢了的人。
而是那个最清楚自己还差什么、并且已经开始一段一段补齐的人。
参考
- 原文链接:https://mp.weixin.qq.com/s/BOmYD79Yocm7TJZbC84ErQ
- 参考来源:腾讯科技《一文读懂DeepSeek V4:1.6万亿参数、百万上下文、华为芯片》