V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。员工的实测反馈是:用起来比 Sonnet 4.5 顺手,交付质量接近 Opus 4.6 非思考模式,和 Opus 4.6 思考模式相比还有差距
DeepSeek V4 这次发布,有很多 headline 很容易抢走注意力。
1.6 万亿参数。
100 万 token 上下文。
首发适配华为昇腾。
这些都重要。
但如果只盯着这些数字,反而会错过一个更接近产品真相的信号。
那就是:
V4-Pro 已经在 DeepSeek 内部,被当成 Agentic Coding 工具日常使用。
而且内部员工给出的反馈,并不是那种公关味很重的“还不错”。
它的表述非常具体。
比 Sonnet 4.5 更顺手。
交付质量接近 Opus 4.6 的非思考模式。
但和 Opus 4.6 的思考模式相比,还有差距。
这几句话里,真正有价值的不是“夸”。
而是它第一次把一个模型在真实研发流程里的相对位置,说得足够工程化。
真正重要的,不是 benchmark 第一,而是“已经被内部拿来干活了”
今天大家看大模型发布,最容易陷入一种错觉。
仿佛只要榜单够亮眼,模型就已经完成了产品化。
其实不是。
很多模型可以在 benchmark 上打出高分。
但一进入真实研发现场,就会暴露出另外一套问题:
规划不稳定。
工具调用爱翻车。
多轮上下文一长就漂。
代码改动不够收敛。
文档写得像样,但不能交付。
所以,DeepSeek 这次真正有分量的一句,不是哪个分数超过谁。
而是它明确告诉外界:
V4-Pro 不是实验室样品。
它已经进入内部日常工作流。
这句话的含义很重。
因为“能演示”与“能日用”之间,隔着的恰恰是 Agent 时代最难跨过去的一道坎。
演示只需要某一次任务做成。
日用要求的是稳定、顺手、可复用、能托付。
模型要从 demo 走向工具,靠的不是一两次惊艳输出。
靠的是在几十个、几百个真实任务里,持续减少人类接管的频率。
“比 Sonnet 4.5 顺手”这句话,比单纯说赢了多少分更有信息量
我觉得这次最锋利的一点,是 DeepSeek 没有只给一个抽象结论。
它给的是非常接近日常使用体验的表述。
“顺手”两个字,看上去不技术。
其实非常技术。
因为 coding agent 的竞争,早就不是只比静态代码能力。
而是在比一整套交互阻力:
它是不是容易理解任务。
是不是容易给出可继续推进的中间状态。
工具调用会不会频繁出错。
遇到歧义时,是不是知道先收敛范围,而不是盲目铺开。
上下文很长时,会不会把关键约束忘掉。
所谓“顺手”,本质上就是这些摩擦项被压低了。
如果一个模型答案偶尔很好,但每天都要你反复纠偏,它就不算顺手。
如果另一个模型平均能力略逊一线,但更稳、更贴近工作流、更少打断你的推进节奏,它在真实研发里就可能更常被打开。
所以,“比 Sonnet 4.5 顺手”这句话,其实是在说:
V4-Pro 在 agentic coding 这个战场上,已经不只是有能力。
它开始有手感了。
DeepSeek 也给了更硬的内部数据:67%、47%、73%、80%
如果说主观反馈还可能被怀疑带有团队滤镜,那么这次他们也给了一个更硬的对照组。
在官方内部 R&D 编程基准测试里,大约 200 个来自 50 多位工程师的真实工作任务,被拿来做横向比较。
结果是:
V4-Pro-Max 的 Pass Rate 是 67%。
Sonnet 4.5 是 47%。
Opus 4.5 Thinking 是 73%。
Opus 4.6 Thinking 是 80%。
这组数字很有意思。
因为它再次印证了 DeepSeek 自己这次非常克制的定位方式。
它没有说自己已经把最前沿闭源模型都打穿了。
它给出的更像是一个清晰坐标:
已经明显超过 Sonnet 4.5。
已经逼近上一档更强的 thinking 模型。
但离 Opus 4.6 Thinking 这种顶格形态,还有距离。
这种表达方式,反而更可信。
因为真正做产品的人都知道,内部工具选型不是看谁最会喊“全面领先”。
而是看你大概处在什么区间。
你能替代谁。
你在哪些任务上已经可以默认打开。
哪些高难场景还要切到更强模型。
V4-Pro 这次给人的感觉,就是它已经进入了“主力候选”的区间。
九成以上内部使用者认可它接近首选,这才是产品化开始成形的标志
参考文里还有一组数据也很关键。
在参与内部调研的 85 名有使用经验的开发者和研究人员中,超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。
这和 benchmark 是两种不同维度的胜利。
前者是能力胜利。
后者是采用胜利。
很多模型输的不是能力不够。
而是采用门槛太高。
你得为它改提示词。
你得反复提醒它别乱调工具。
你得随时盯着它别把上下文跑偏。
这种模型哪怕某些 benchmark 更强,也很难成为团队默认工具。
因为团队不会围着模型转。
真正能活下来的,是那个能顺着团队现有流程接进去的模型。
九成以上的人愿意把它当首选或接近首选,这说明 V4-Pro 已经开始穿过“试试看”的阶段,进入“可以托付一部分真实工作”的阶段。
而这,恰恰是 Agent 产品竞争里最贵的一步。
DeepSeek 这次不是在做一个会写代码的模型,而是在做一个更像工具链组件的模型
V4-Pro 之所以值得认真看,还因为它的优化方向很明确。
它不是只在 benchmark 上做功。
它是在围绕现有 agent 工具链做适配。
参考文里提到,模型已经针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了专项优化。
这句话背后的意思,其实是:
DeepSeek 已经不把模型只当成一个聊天窗口里的回答器。
它在主动进入 agent runtime。
进入实际开发工具。
进入“模型—工具—上下文—执行结果—再规划”这个闭环。
这和上一代大模型竞争的重点已经不一样了。
过去大家比的是:
谁更像一个聪明的大脑。
现在越来越在比:
谁更像一个可靠的系统部件。
一旦竞争切换到这个层面,很多看似不性感的细节,反而会决定胜负。
XML tool-call schema 这种细节,不花哨,但非常值钱
这次 DeepSeek 还提到一个很多人容易忽略的点。
V4 系列引入了新的 XML 格式 tool-call schema,并用 |DSML| 这样的特殊 token 去划定调用边界。
官方给出的理由很直接:
减少转义失败和工具调用错误。
这不是什么好听的新概念。
但这类改动非常值钱。
因为 Agent 真正的崩溃,往往就崩在这种不起眼的地方。
不是不会写算法。
而是工具参数多了个转义字符。
不是不会规划。
而是中途调用接口时把结构搞坏了。
不是模型不聪明。
而是系统边界不稳定。
如果你真的在生产环境里用 coding agent,你就会知道:
减少一次 tool-call 格式错误,往往比多提一两分 benchmark 更能改善体感。
这也是为什么我会说,V4-Pro 这次更像一次“工程成熟度发布”。
它在补的,是模型真正进入日常工作前必须补齐的那层壳。
V4 的含义,不只是代码更强,而是它开始补上 Agent 时代最关键的三件事
把这次发布拆开看,V4 真正想补的,其实是三件事。
第一件,是 coding agent 的日用性。
这就是前面说的内部采用、顺手程度、真实工作任务 Pass Rate。
第二件,是长上下文的成本重构。
V4-Pro 和 V4-Flash 都标配 1M 上下文,但重点不只是窗口变长,而是通过 CSA、HCA 这类压缩注意力机制,把长上下文的推理成本和 KV Cache 压下来。
在 1M 场景下,V4-Pro 的单 token 推理计算量只剩 V3.2 的 27%,KV Cache 只剩 10%。
V4-Flash 更激进,分别压到 10% 和 7%。
第三件,是把模型更深地嵌进工具生态。
包括主流 agent 产品适配、工具调用 schema 调整、以及对 MCP 场景的表现强化。
这三件事放在一起,才构成今天一个 agent 模型真正的竞争力。
不是单点最强。
而是工作流里总摩擦更低。
别把这次理解成“DeepSeek 已经赢了”,更准确的理解是:它已经进入了最有威胁的跟跑区间
我反而觉得,DeepSeek 这次最成熟的地方,是它没有把自己包装成一次终局胜利。
从多组对照能看出来,V4-Pro 很强。
但它并没有掩饰和最强闭源 thinking 模型之间的差距。
这其实是更危险的一种状态。
因为真正值得警惕的竞争者,不一定是那个已经宣布全面领先的人。
而是那个已经在关键场景里跑通日用价值、同时仍然保持工程迭代速度的人。
如果 V4-Pro 现在已经做到:
内部团队日常用。
多数使用者愿意把它当主力候选。
编码场景体感超过 Sonnet 4.5。
高阶质量逼近 Opus 4.6 非思考模式。
那它接下来最值得观察的,就不是“它能不能发一张更漂亮的榜单图”。
而是它还能把这些真实使用优势,再推进多远。
因为一旦它把思考模式下的上限继续往上抬,同时保住今天这种顺手程度,它对闭源 coding agent 的压力会比单次榜单胜负更真实。
对产业更大的启发是:Agent 时代的模型竞争,正在从“会不会答”变成“能不能接手工作”
这次标题里的那句话,真正让我在意的,不只是 DeepSeek 自己用了 V4-Pro。
而是它把外界对模型的评价尺度,也悄悄改了。
以后大家再看 coding model,问题可能不再是:
它会不会写一段更漂亮的代码。
而是:
它能不能进入真实仓库。
能不能稳定调用工具。
能不能在多轮上下文里持续推进任务。
能不能在一天里被工程师反复打开,而不是只在演示时惊艳一次。
如果按这个标准衡量,V4-Pro 这次给出的最强信号,不是“某个项目拿了第几名”。
而是它已经开始在 DeepSeek 自己内部,承担一种接近生产力工具的角色。
这意味着它不再只是一个会写代码的模型。
它开始像一个能接手部分研发工作的 agent 了。
而这,可能才是这次发布里最值得被记住的一件事。
参考
- 原文链接:https://mp.weixin.qq.com/s/oXP0arza09P36gkxW_fZHQ
- 参考来源:APPSO《定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」》