AI 下半场的工程分水岭:从能回答到能交付,再到能自我进化
我最近在自己的工作流里做了一个很具体的对照实验:把同一类任务分别交给三种“AI 形态”——纯聊天模型、带工具的 Agent、带闭环的系统。结果非常一致:决定体验上限的,不是模型聪明不聪明,而是你有没有把它放进一套可观测、可评测、可进化的工程结构里。
这篇文章不讲“某个模型又强了”,只讲我认为 AI 下半场最重要的三件事:
- 你必须知道它在做什么(可观测)
- 你必须知道什么叫更好(评测)
- 你必须让它在机制里持续变好(进化)
而一旦这三件事成立,AI 才能从“文本能力”迁移到“真实世界能力”。
1. 我对 Agent 的第一条硬标准:你得能复盘它的每一次行动
当 AI 开始执行——调用 shell、访问网页、改文件、发请求——它已经不是“回答者”,而是一个握着权限的操作员。这个时候最危险的不是它犯错,而是你不知道它何时犯错、怎么犯错、代价多大。
我在一段时间里把自己的 Agent 调用链路做了强制记录:每次请求触发了几轮模型调用、每轮的输入输出、每次工具使用、耗时、token、外部访问目标、失败重试次数。几天之后你会看到一个非常工程化的现象:
- “一次提问”背后可能是十几次甚至几十次调用
- 成本不是线性增长,而是随着 context 变长出现滚雪球效应
- 真正导致体验崩坏的,往往不是模型能力,而是“系统行为黑盒 + 无法定位的慢与错”
这让我形成一个结论:Agent 的第一性风险是不可观测性。 可观测性不是为了写报告,而是为了把“错”变成可修复的 bug,把“慢”变成可优化的瓶颈,把“贵”变成可控制的预算。
我现在对任何可上线的 Agent 系统都有一条硬门槛:
- 你必须能回答:“它刚刚做了什么?”
- 你必须能回答:“它为什么这么做?”
- 你必须能回答:“这次行动的成本是多少、有没有超预算?” 回答不了,哪怕演示再惊艳,也只能停在玩具阶段。
2. 我验证过最有效的增长策略:把“迭代”本身做成可编程系统
很多团队把 AI 产品优化理解成“调 prompt”。这在早期能赢一点,但很快会撞到天花板,因为你面对的是一个巨大空间:提示词、工具选择、步骤规划、检索策略、验证策略、格式约束……真正的最优解不是被“灵感”发现的,而是被“搜索”找到的。
我做过一个最朴素的版本:
- 人先写清楚“什么叫好”(包括硬正确性、质量、成本、风格约束)
- 系统批量生成多种策略/提示/流程候选
- 用程序化 eval 自动打分、筛选、保留最好的一批
- 小流量灰度上线,持续收集失败簇,再回流迭代
真正的转折点在于:你得把“评测”当成产品核心,而不是末尾的验收。因为eval 的表达能力决定你能优化到哪里。你能写出怎样的评测,就能塑造怎样的系统行为。
这里我总结出一个非常关键的工程纪律:三权分立——
- 生成权(负责产出候选)
- 评估权(负责定义与打分)
- 执行权(负责上线与回滚)
只要这三者不隔离,系统就会天然学会“投机”:在你看的指标上变好,在你没看的场景里变坏;或者在少数测试题上变好,一换数据就崩。隔离之后,你才可能把优化做成稳定飞轮,而不是一次次拍脑袋。
3. 让系统“会成长”的关键不是更长思维链,而是可验证闭环
很多人对“自我进化”的直觉是:让模型想得更深、链条更长。但我在实践里更相信相反方向:成长来自闭环,不来自冗长。
一个能持续变强的系统,必须把以下流程做成机制,而不是靠人盯着: 提出假设 → 设计实验 → 量化评估 → 记录结果 → 提炼规则/策略 → 可回滚地上线
这套流程一旦跑起来,你会得到两个反直觉的收益:
- 失败不再是浪费,而是资产:它定义了“失败簇”,决定下一轮该优化哪里
- “经验”不再只存在于人的脑子里,而是存在于可追溯的策略版本与评测数据里
因此我现在更愿意把“自我进化”理解成: 一个能自我纠错、能积累经验、并能把经验传播复用的工程系统,而不只是一个更会解释的模型。
4. 我的一个强判断:物理世界正在迎来自己的“GitHub 时刻”
当我把上面三件事(观测、评测、闭环)看成一个整体时,会自然导向一个更大的推断:AI 的主战场会从“生成内容”迁移到“重构流程”,而重构流程最硬的一块,就是物理世界。
软件世界过去二十年把一件事做到了极致:把开发与交付变成流水线(版本控制、测试、部署、监控、回滚)。而物理世界直到今天,很多关键流程仍然是碎片化、手工化、不可追溯的。
但物理世界有一个不可绕过的事实:物理学拥有终审权。 你可以在仿真里很快,但最终必须在现实里验证。于是,谁能把“现实验证”变成可观测、可评测、可迭代的系统,谁就能把 AI 从虚拟迁移到真实。
我预计未来 12–24 个月会出现一类新的基础设施机会:
- 面向硬件/机器人/自动驾驶/航天国防的“记录系统(system of record)”
- 把遥测、测试、异常、追溯、验证逻辑做成可复用资产
- 让“研发→制造→运维”变成连续数据链路 它的效果会类似软件领域的 GitHub/CI:不是让某一次测试更快,而是让整个组织的学习速度更快。
5. 结语:下半场的竞争是“单位智能成本”与“工程闭环密度”
我对 AI 下半场的判断越来越简单: 谁能把智能变成便宜、稳定、可复制的系统能力,谁就赢。
如果你正在做 Agent 或把 AI 放进业务,我建议先做一个自检,不需要宏大叙事,只要回答三问:
- 我能不能看见它在做什么(可观测)?
- 我能不能规模化判断什么叫更好(可评测)?
- 我能不能让它在机制里持续变好(可进化)?
三问都能答出来,AI 才会从“演示品”变成“基础设施”。