Evolver:让 Agent 自己演化自己 Harness 的 Harness
核心判断
智能体的上限越来越不像“模型能力”,而像“harness 维护能力”。当 Agent 开始长时间运行、接入更多工具、承担更复杂流程时,最昂贵的环节会从“写功能”迁移到“调优、修复、固化经验”。Evolver 的价值在于:把这套维护工作做成一条可自动化、可审计、可回滚的流水线——让 Agent 不仅能完成任务,还能系统性地让自己变得更好。
1)Evolver 在解什么题:把“人工 prompt 调优”变成后台自动化
传统的 Agent 调优基本是人肉循环:跑一圈 → 看日志 → 人工改 prompt/工具/策略 → 再跑一圈。这个循环里最贵的不是 token,而是人的注意力。
Evolver 的目标就是自动化这段最贵的人力:输入是运行日志、会话记录、记忆文件;输出是代码补丁、新技能、更新后的记忆;中间全程被一套协议(GEP:Genome Evolution Protocol)约束。
一句话:它不是让 Agent 更会“做事”,而是让 Agent 更会“改自己”。
2)工作流:从“信号”到“补丁”再到“固化”
Evolver 的演化 cycle 可以理解为五步:
- 提取信号:从日志/会话/记忆里抽取“问题与机会”的结构化信号
- 选择策略(Gene):针对信号选择一种修复/优化/创新策略模板
- 生成变更(Mutation):产出代码补丁、技能定义、记忆更新等
- 验证与固化(solidify):严格检查、跑验证命令、金丝雀测试、写入审计事件
- 沉淀资产(Capsule):把成功经验封装成可复用的策略资产
这条流水线的本质,是把“智能体自我改进”变成变更管理:有边界、有验证、有回滚、有审计。
3)最值得深挖的三处设计
A. 反停滞机制:专门防“修复循环”
自演化系统最容易掉进的坑是 repair loop:发现错误 → 修复失败引入新错误 → 再次发现同类错误 → 继续用同一策略反复尝试。
Evolver 的做法很工程化:对最近若干次演化事件做频率统计,发现某个信号反复出现就“压制”它,必要时强行从 repair 切换到 innovate;连续失败还会强制换一种 Gene,避免系统在同一策略上原地打转。
这不是“聪明”,而是“反复跑过坑”之后的系统纪律。
B. 记忆图谱:从“记内容”升级为“记因果”
Evolver 把每次演化的因果链记录成图谱:SignalSnapshot → Hypothesis → Attempt → Outcome。
关键不在记录,而在利用:它会计算不同 Gene 在特定信号条件下的成功率,低效策略会被 ban,高成功率策略会被 preferred。
这让演化从“随机试错”更像“策略级学习”:下一次遇到相似信号,系统倾向于复用被验证过的有效路径。
如果说很多 Agent 只是在“记聊天”,Evolver 在“记策略的因果效果”。
C. 爆炸半径控制:约束的是“改自己能影响多大”
Evolver 的安全模型很有意思:它不是只管运行时权限(能不能调用某工具),它更强调变更管理(这次自我修改最多改几个文件、哪些路径禁止碰)。
固化流程里还会检查:是否在 Git 仓库内;协议对象是否完整/合规;diff 的文件数/行数是否超限;破坏性变更直接回滚;Gene 定义的验证命令是否通过;金丝雀检查(保证关键入口还能加载)。
这套机制让“自演化”更像“受控发布”,而不是“自我改写的黑箱”。
4)它为什么是“一个让 harness 更好的 harness”
OpenClaw、Codex、各类 Agent 框架,更多解决“怎么把当前任务做好”。Evolver 解决的是下一个问题:怎么让系统长期运行时不腐化、不退化,并持续积累有效改进。
在长期运行的 Agent 世界里,这往往才是决定体验与成本的关键:不是第一次跑通 demo,而是第 100 次、第 1000 次运行还能稳定、能持续变好。
5)结论:Agent 工程正在走向“自维护”
Evolver 这类系统传递了一个趋势:未来的 Agent 平台会分层:模型负责推理与生成,harness 负责执行与约束,而 evolver 负责维护与进化。
当“维护”被产品化,智能体才可能规模化。