PingCAP联合创始人兼CTO 黄东旭:我正在把自己的Hermes工作流迁移到DeepSeek V4上
黄东旭(PingCAP 联合创始人兼 CTO)最近在一场多人圆桌中说了一段话,值得单独摘出来:
我正在把自己的 Hermes 工作流迁移到 DeepSeek V4 上。原来我用得比较浪费,是用 Claude Opus 和 GPT5.4 来做 Agent,但后来我发现,大多数日常工作其实并不需要特别高的 coding 能力。
他的日常 Agent 任务:邮件整理、文章撰写、日历管理、内容总结、网络浏览。
对这类任务,他的结论是:DeepSeek V4 Pro 能力大致相当于 Claude Sonnet 4.5 到 4.6,但价格不到头部模型的四分之一。 切过去之后,他"基本上已经不用再关注 Agent 的成本开销了"。
两个理由,一个是钱,一个是安全感
为什么切?黄东旭给了两个理由。
第一,成本。 V4 Pro 的推理价格极低,配合它对长上下文的高效处理,跑日常 Agent 任务的账单可以忽略不计。
第二,供应链安全。 他说了一句很实在的话:
我不用太担心 Anthropic 或者 OpenAI 如果断供,我之前的一些工作流就不能用了。这种事情之前其实发生过。在这一点上,切到 DeepSeek V4,安全感是更高的。
DeepSeek 是开源模型,MIT License,可以自部署。对于把 Agent 工作流建立在闭源 API 上的人来说,这不是小事。
Harness 架构:用强模型指方向,V4 负责执行
黄东旭目前的 Harness 框架(基于 Slock.ai)并不复杂,更多依靠模型自身的协同能力,而不是人为编排。他描述了一个组合逻辑:
如果前面有一些比较强的模型(例如像 GPT5.5 这种级别的)去给 DeepSeek V4 Pro 指方向,然后让它负责执行,这种模式我觉得能让整个 Harness Engineering 的成本大幅下降。
这个思路对应的是 Agent 架构里一个越来越清晰的分层:规划层用旗舰模型(贵但准),执行层用高性价比模型(便宜量大)。V4 Pro 恰好落在执行层的最优解附近。
编程能力:几千行规模,one-shot 成功率不错
对于 coding 任务,黄东旭的评估比较务实:
在大概几千行代码的规模,或者做一些小型应用,以及处理充满各种外部第三方系统调用的场景(比如去 Supabase 或者 TiDB Cloud 上,通过阅读文档去接入一个它不太熟悉的工具),目前我的体感是基本上没有出现太大的问题。
one-shot 成功率在几千到一万行规模里表现不错。但他也没有测试更复杂的大型系统。
同场圆桌中,其他人补充了 V4 的局限:Pine AI 首席科学家李博杰明确指出,工具调用稳定性和幻觉率是 V4 的硬伤,在真正落地之前必须在 Harness 层面补足(加验证器、自动重试、外部知识库接地)。Coding Agent 创业者 Chillin 的评估更直接:V4 的 coding 能力大约是 Claude 一年多前的水平,落地需要额外的脚手架配置。
两种判断不矛盾:对于黄东旭这样的日常工作流场景,V4 已经够用;对于需要在长链路 Agent 任务里高稳定性运行的产品,还需要额外的工程投入来补足短板。
参考:DeepSeek V4发布,AI行业正在打响模型和AI应用的系统化战争,周鑫雨 王毓婵,极客时间,2026-04-28