AI 下半场的工程分水岭：从能回答到能交付，再到能自我进化

2026-03-21

我最近在自己的工作流里做了一个很具体的对照实验：把同一类任务分别交给三种“AI 形态”——纯聊天模型、带工具的 Agent、带闭环的系统。结果非常一致：决定体验上限的，不是模型聪明不聪明，而是你有没有把它放进一套可观测、可评测、可进化的工程结构里。

这篇文章不讲“某个模型又强了”，只讲我认为 AI 下半场最重要的三件事：

而一旦这三件事成立，AI 才能从“文本能力”迁移到“真实世界能力”。

当 AI 开始执行——调用 shell、访问网页、改文件、发请求——它已经不是“回答者”，而是一个握着权限的操作员。这个时候最危险的不是它犯错，而是你不知道它何时犯错、怎么犯错、代价多大。

我在一段时间里把自己的 Agent 调用链路做了强制记录：每次请求触发了几轮模型调用、每轮的输入输出、每次工具使用、耗时、token、外部访问目标、失败重试次数。几天之后你会看到一个非常工程化的现象：

这让我形成一个结论：Agent 的第一性风险是不可观测性。可观测性不是为了写报告，而是为了把“错”变成可修复的 bug，把“慢”变成可优化的瓶颈，把“贵”变成可控制的预算。

我现在对任何可上线的 Agent 系统都有一条硬门槛：

很多团队把 AI 产品优化理解成“调 prompt”。这在早期能赢一点，但很快会撞到天花板，因为你面对的是一个巨大空间：提示词、工具选择、步骤规划、检索策略、验证策略、格式约束……真正的最优解不是被“灵感”发现的，而是被“搜索”找到的。

我做过一个最朴素的版本：

真正的转折点在于：你得把“评测”当成产品核心，而不是末尾的验收。因为eval 的表达能力决定你能优化到哪里。你能写出怎样的评测，就能塑造怎样的系统行为。

这里我总结出一个非常关键的工程纪律：三权分立——

只要这三者不隔离，系统就会天然学会“投机”：在你看的指标上变好，在你没看的场景里变坏；或者在少数测试题上变好，一换数据就崩。隔离之后，你才可能把优化做成稳定飞轮，而不是一次次拍脑袋。

很多人对“自我进化”的直觉是：让模型想得更深、链条更长。但我在实践里更相信相反方向：成长来自闭环，不来自冗长。

一个能持续变强的系统，必须把以下流程做成机制，而不是靠人盯着：提出假设 → 设计实验 → 量化评估 → 记录结果 → 提炼规则/策略 → 可回滚地上线

这套流程一旦跑起来，你会得到两个反直觉的收益：

因此我现在更愿意把“自我进化”理解成： 一个能自我纠错、能积累经验、并能把经验传播复用的工程系统，而不只是一个更会解释的模型。

当我把上面三件事（观测、评测、闭环）看成一个整体时，会自然导向一个更大的推断：AI 的主战场会从“生成内容”迁移到“重构流程”，而重构流程最硬的一块，就是物理世界。

软件世界过去二十年把一件事做到了极致：把开发与交付变成流水线（版本控制、测试、部署、监控、回滚）。而物理世界直到今天，很多关键流程仍然是碎片化、手工化、不可追溯的。

但物理世界有一个不可绕过的事实：物理学拥有终审权。你可以在仿真里很快，但最终必须在现实里验证。于是，谁能把“现实验证”变成可观测、可评测、可迭代的系统，谁就能把 AI 从虚拟迁移到真实。

我预计未来 12–24 个月会出现一类新的基础设施机会：

我对 AI 下半场的判断越来越简单： 谁能把智能变成便宜、稳定、可复制的系统能力，谁就赢。

如果你正在做 Agent 或把 AI 放进业务，我建议先做一个自检，不需要宏大叙事，只要回答三问：

三问都能答出来，AI 才会从“演示品”变成“基础设施”。