V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。员工的实测反馈是：用起来比 Sonnet 4.5 顺手，交付质量接近 Opus 4.6 非思考模式，和 Opus 4.6 思考模式相比还有差距

2026-04-24

DeepSeek V4 这次发布，有很多 headline 很容易抢走注意力。

1.6 万亿参数。

100 万 token 上下文。

首发适配华为昇腾。

这些都重要。

但如果只盯着这些数字，反而会错过一个更接近产品真相的信号。

那就是：

V4-Pro 已经在 DeepSeek 内部，被当成 Agentic Coding 工具日常使用。

而且内部员工给出的反馈，并不是那种公关味很重的“还不错”。

它的表述非常具体。

比 Sonnet 4.5 更顺手。

交付质量接近 Opus 4.6 的非思考模式。

但和 Opus 4.6 的思考模式相比，还有差距。

这几句话里，真正有价值的不是“夸”。

而是它第一次把一个模型在真实研发流程里的相对位置，说得足够工程化。

真正重要的，不是 benchmark 第一，而是“已经被内部拿来干活了”

今天大家看大模型发布，最容易陷入一种错觉。

仿佛只要榜单够亮眼，模型就已经完成了产品化。

其实不是。

很多模型可以在 benchmark 上打出高分。

但一进入真实研发现场，就会暴露出另外一套问题：

规划不稳定。

工具调用爱翻车。

多轮上下文一长就漂。

代码改动不够收敛。

文档写得像样，但不能交付。

所以，DeepSeek 这次真正有分量的一句，不是哪个分数超过谁。

而是它明确告诉外界：

V4-Pro 不是实验室样品。

它已经进入内部日常工作流。

这句话的含义很重。

因为“能演示”与“能日用”之间，隔着的恰恰是 Agent 时代最难跨过去的一道坎。

演示只需要某一次任务做成。

日用要求的是稳定、顺手、可复用、能托付。

模型要从 demo 走向工具，靠的不是一两次惊艳输出。

靠的是在几十个、几百个真实任务里，持续减少人类接管的频率。

“比 Sonnet 4.5 顺手”这句话，比单纯说赢了多少分更有信息量

我觉得这次最锋利的一点，是 DeepSeek 没有只给一个抽象结论。

它给的是非常接近日常使用体验的表述。

“顺手”两个字，看上去不技术。

其实非常技术。

因为 coding agent 的竞争，早就不是只比静态代码能力。

而是在比一整套交互阻力：

它是不是容易理解任务。

是不是容易给出可继续推进的中间状态。

工具调用会不会频繁出错。

遇到歧义时，是不是知道先收敛范围，而不是盲目铺开。

上下文很长时，会不会把关键约束忘掉。

所谓“顺手”，本质上就是这些摩擦项被压低了。

如果一个模型答案偶尔很好，但每天都要你反复纠偏，它就不算顺手。

如果另一个模型平均能力略逊一线，但更稳、更贴近工作流、更少打断你的推进节奏，它在真实研发里就可能更常被打开。

所以，“比 Sonnet 4.5 顺手”这句话，其实是在说：

V4-Pro 在 agentic coding 这个战场上，已经不只是有能力。

它开始有手感了。

DeepSeek 也给了更硬的内部数据：67%、47%、73%、80%

如果说主观反馈还可能被怀疑带有团队滤镜，那么这次他们也给了一个更硬的对照组。

在官方内部 R&D 编程基准测试里，大约 200 个来自 50 多位工程师的真实工作任务，被拿来做横向比较。

结果是：

V4-Pro-Max 的 Pass Rate 是 67%。

Sonnet 4.5 是 47%。

Opus 4.5 Thinking 是 73%。

Opus 4.6 Thinking 是 80%。

这组数字很有意思。

因为它再次印证了 DeepSeek 自己这次非常克制的定位方式。

它没有说自己已经把最前沿闭源模型都打穿了。

它给出的更像是一个清晰坐标：

已经明显超过 Sonnet 4.5。

已经逼近上一档更强的 thinking 模型。

但离 Opus 4.6 Thinking 这种顶格形态，还有距离。

这种表达方式，反而更可信。

因为真正做产品的人都知道，内部工具选型不是看谁最会喊“全面领先”。

而是看你大概处在什么区间。

你能替代谁。

你在哪些任务上已经可以默认打开。

哪些高难场景还要切到更强模型。

V4-Pro 这次给人的感觉，就是它已经进入了“主力候选”的区间。

九成以上内部使用者认可它接近首选，这才是产品化开始成形的标志

参考文里还有一组数据也很关键。

在参与内部调研的 85 名有使用经验的开发者和研究人员中，超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。

这和 benchmark 是两种不同维度的胜利。

前者是能力胜利。

后者是采用胜利。

很多模型输的不是能力不够。

而是采用门槛太高。

你得为它改提示词。

你得反复提醒它别乱调工具。

你得随时盯着它别把上下文跑偏。

这种模型哪怕某些 benchmark 更强，也很难成为团队默认工具。

因为团队不会围着模型转。

真正能活下来的，是那个能顺着团队现有流程接进去的模型。

九成以上的人愿意把它当首选或接近首选，这说明 V4-Pro 已经开始穿过“试试看”的阶段，进入“可以托付一部分真实工作”的阶段。

而这，恰恰是 Agent 产品竞争里最贵的一步。

DeepSeek 这次不是在做一个会写代码的模型，而是在做一个更像工具链组件的模型

V4-Pro 之所以值得认真看，还因为它的优化方向很明确。

它不是只在 benchmark 上做功。

它是在围绕现有 agent 工具链做适配。

参考文里提到，模型已经针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了专项优化。

这句话背后的意思，其实是：

DeepSeek 已经不把模型只当成一个聊天窗口里的回答器。

它在主动进入 agent runtime。

进入实际开发工具。

进入“模型—工具—上下文—执行结果—再规划”这个闭环。

这和上一代大模型竞争的重点已经不一样了。

过去大家比的是：

谁更像一个聪明的大脑。

现在越来越在比：

谁更像一个可靠的系统部件。

一旦竞争切换到这个层面，很多看似不性感的细节，反而会决定胜负。

XML tool-call schema 这种细节，不花哨，但非常值钱

这次 DeepSeek 还提到一个很多人容易忽略的点。

V4 系列引入了新的 XML 格式 tool-call schema，并用 |DSML| 这样的特殊 token 去划定调用边界。

官方给出的理由很直接：

减少转义失败和工具调用错误。

这不是什么好听的新概念。

但这类改动非常值钱。

因为 Agent 真正的崩溃，往往就崩在这种不起眼的地方。

不是不会写算法。

而是工具参数多了个转义字符。

不是不会规划。

而是中途调用接口时把结构搞坏了。

不是模型不聪明。

而是系统边界不稳定。

如果你真的在生产环境里用 coding agent，你就会知道：

减少一次 tool-call 格式错误，往往比多提一两分 benchmark 更能改善体感。

这也是为什么我会说，V4-Pro 这次更像一次“工程成熟度发布”。

它在补的，是模型真正进入日常工作前必须补齐的那层壳。

V4 的含义，不只是代码更强，而是它开始补上 Agent 时代最关键的三件事

把这次发布拆开看，V4 真正想补的，其实是三件事。

第一件，是 coding agent 的日用性。

这就是前面说的内部采用、顺手程度、真实工作任务 Pass Rate。

第二件，是长上下文的成本重构。

V4-Pro 和 V4-Flash 都标配 1M 上下文，但重点不只是窗口变长，而是通过 CSA、HCA 这类压缩注意力机制，把长上下文的推理成本和 KV Cache 压下来。

在 1M 场景下，V4-Pro 的单 token 推理计算量只剩 V3.2 的 27%，KV Cache 只剩 10%。

V4-Flash 更激进，分别压到 10% 和 7%。

第三件，是把模型更深地嵌进工具生态。

包括主流 agent 产品适配、工具调用 schema 调整、以及对 MCP 场景的表现强化。

这三件事放在一起，才构成今天一个 agent 模型真正的竞争力。

不是单点最强。

而是工作流里总摩擦更低。

别把这次理解成“DeepSeek 已经赢了”，更准确的理解是：它已经进入了最有威胁的跟跑区间

我反而觉得，DeepSeek 这次最成熟的地方，是它没有把自己包装成一次终局胜利。

从多组对照能看出来，V4-Pro 很强。

但它并没有掩饰和最强闭源 thinking 模型之间的差距。

这其实是更危险的一种状态。

因为真正值得警惕的竞争者，不一定是那个已经宣布全面领先的人。

而是那个已经在关键场景里跑通日用价值、同时仍然保持工程迭代速度的人。

如果 V4-Pro 现在已经做到：

内部团队日常用。

多数使用者愿意把它当主力候选。

编码场景体感超过 Sonnet 4.5。

高阶质量逼近 Opus 4.6 非思考模式。

那它接下来最值得观察的，就不是“它能不能发一张更漂亮的榜单图”。

而是它还能把这些真实使用优势，再推进多远。

因为一旦它把思考模式下的上限继续往上抬，同时保住今天这种顺手程度，它对闭源 coding agent 的压力会比单次榜单胜负更真实。

对产业更大的启发是：Agent 时代的模型竞争，正在从“会不会答”变成“能不能接手工作”

这次标题里的那句话，真正让我在意的，不只是 DeepSeek 自己用了 V4-Pro。

而是它把外界对模型的评价尺度，也悄悄改了。

以后大家再看 coding model，问题可能不再是：

它会不会写一段更漂亮的代码。

而是：

它能不能进入真实仓库。

能不能稳定调用工具。

能不能在多轮上下文里持续推进任务。

能不能在一天里被工程师反复打开，而不是只在演示时惊艳一次。

如果按这个标准衡量，V4-Pro 这次给出的最强信号，不是“某个项目拿了第几名”。

而是它已经开始在 DeepSeek 自己内部，承担一种接近生产力工具的角色。

这意味着它不再只是一个会写代码的模型。

它开始像一个能接手部分研发工作的 agent 了。

而这，可能才是这次发布里最值得被记住的一件事。

参考

原文链接：https://mp.weixin.qq.com/s/oXP0arza09P36gkxW_fZHQ
参考来源：APPSO《定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」》