PingCAP联合创始人兼CTO 黄东旭：我正在把自己的Hermes工作流迁移到DeepSeek V4上

2026-04-28

黄东旭（PingCAP 联合创始人兼 CTO）最近在一场多人圆桌中说了一段话，值得单独摘出来：

我正在把自己的 Hermes 工作流迁移到 DeepSeek V4 上。原来我用得比较浪费，是用 Claude Opus 和 GPT5.4 来做 Agent，但后来我发现，大多数日常工作其实并不需要特别高的 coding 能力。

他的日常 Agent 任务：邮件整理、文章撰写、日历管理、内容总结、网络浏览。

对这类任务，他的结论是：DeepSeek V4 Pro 能力大致相当于 Claude Sonnet 4.5 到 4.6，但价格不到头部模型的四分之一。 切过去之后，他"基本上已经不用再关注 Agent 的成本开销了"。

两个理由，一个是钱，一个是安全感

为什么切？黄东旭给了两个理由。

第一，成本。 V4 Pro 的推理价格极低，配合它对长上下文的高效处理，跑日常 Agent 任务的账单可以忽略不计。

第二，供应链安全。 他说了一句很实在的话：

我不用太担心 Anthropic 或者 OpenAI 如果断供，我之前的一些工作流就不能用了。这种事情之前其实发生过。在这一点上，切到 DeepSeek V4，安全感是更高的。

DeepSeek 是开源模型，MIT License，可以自部署。对于把 Agent 工作流建立在闭源 API 上的人来说，这不是小事。

Harness 架构：用强模型指方向，V4 负责执行

黄东旭目前的 Harness 框架（基于 Slock.ai）并不复杂，更多依靠模型自身的协同能力，而不是人为编排。他描述了一个组合逻辑：

如果前面有一些比较强的模型（例如像 GPT5.5 这种级别的）去给 DeepSeek V4 Pro 指方向，然后让它负责执行，这种模式我觉得能让整个 Harness Engineering 的成本大幅下降。

这个思路对应的是 Agent 架构里一个越来越清晰的分层：规划层用旗舰模型（贵但准），执行层用高性价比模型（便宜量大）。V4 Pro 恰好落在执行层的最优解附近。

编程能力：几千行规模，one-shot 成功率不错

对于 coding 任务，黄东旭的评估比较务实：

在大概几千行代码的规模，或者做一些小型应用，以及处理充满各种外部第三方系统调用的场景（比如去 Supabase 或者 TiDB Cloud 上，通过阅读文档去接入一个它不太熟悉的工具），目前我的体感是基本上没有出现太大的问题。

one-shot 成功率在几千到一万行规模里表现不错。但他也没有测试更复杂的大型系统。

同场圆桌中，其他人补充了 V4 的局限：Pine AI 首席科学家李博杰明确指出，工具调用稳定性和幻觉率是 V4 的硬伤，在真正落地之前必须在 Harness 层面补足（加验证器、自动重试、外部知识库接地）。Coding Agent 创业者 Chillin 的评估更直接：V4 的 coding 能力大约是 Claude 一年多前的水平，落地需要额外的脚手架配置。

两种判断不矛盾：对于黄东旭这样的日常工作流场景，V4 已经够用；对于需要在长链路 Agent 任务里高稳定性运行的产品，还需要额外的工程投入来补足短板。

参考：DeepSeek V4发布，AI行业正在打响模型和AI应用的系统化战争，周鑫雨王毓婵，极客时间，2026-04-28