Evolver：让 Agent 自己演化自己 Harness 的 Harness

2026-03-23

核心判断

智能体的上限越来越不像“模型能力”，而像“harness 维护能力”。当 Agent 开始长时间运行、接入更多工具、承担更复杂流程时，最昂贵的环节会从“写功能”迁移到“调优、修复、固化经验”。Evolver 的价值在于：把这套维护工作做成一条可自动化、可审计、可回滚的流水线——让 Agent 不仅能完成任务，还能系统性地让自己变得更好。

1）Evolver 在解什么题：把“人工 prompt 调优”变成后台自动化

传统的 Agent 调优基本是人肉循环：跑一圈 → 看日志 → 人工改 prompt/工具/策略 → 再跑一圈。这个循环里最贵的不是 token，而是人的注意力。

Evolver 的目标就是自动化这段最贵的人力：输入是运行日志、会话记录、记忆文件；输出是代码补丁、新技能、更新后的记忆；中间全程被一套协议（GEP：Genome Evolution Protocol）约束。

一句话：它不是让 Agent 更会“做事”，而是让 Agent 更会“改自己”。

2）工作流：从“信号”到“补丁”再到“固化”

Evolver 的演化 cycle 可以理解为五步：

提取信号：从日志/会话/记忆里抽取“问题与机会”的结构化信号
选择策略（Gene）：针对信号选择一种修复/优化/创新策略模板
生成变更（Mutation）：产出代码补丁、技能定义、记忆更新等
验证与固化（solidify）：严格检查、跑验证命令、金丝雀测试、写入审计事件
沉淀资产（Capsule）：把成功经验封装成可复用的策略资产

这条流水线的本质，是把“智能体自我改进”变成变更管理：有边界、有验证、有回滚、有审计。

3）最值得深挖的三处设计

A. 反停滞机制：专门防“修复循环”

自演化系统最容易掉进的坑是 repair loop：发现错误 → 修复失败引入新错误 → 再次发现同类错误 → 继续用同一策略反复尝试。

Evolver 的做法很工程化：对最近若干次演化事件做频率统计，发现某个信号反复出现就“压制”它，必要时强行从 repair 切换到 innovate；连续失败还会强制换一种 Gene，避免系统在同一策略上原地打转。

这不是“聪明”，而是“反复跑过坑”之后的系统纪律。

B. 记忆图谱：从“记内容”升级为“记因果”

Evolver 把每次演化的因果链记录成图谱：SignalSnapshot → Hypothesis → Attempt → Outcome。

关键不在记录，而在利用：它会计算不同 Gene 在特定信号条件下的成功率，低效策略会被 ban，高成功率策略会被 preferred。

这让演化从“随机试错”更像“策略级学习”：下一次遇到相似信号，系统倾向于复用被验证过的有效路径。

如果说很多 Agent 只是在“记聊天”，Evolver 在“记策略的因果效果”。

C. 爆炸半径控制：约束的是“改自己能影响多大”

Evolver 的安全模型很有意思：它不是只管运行时权限（能不能调用某工具），它更强调变更管理（这次自我修改最多改几个文件、哪些路径禁止碰）。

固化流程里还会检查：是否在 Git 仓库内；协议对象是否完整/合规；diff 的文件数/行数是否超限；破坏性变更直接回滚；Gene 定义的验证命令是否通过；金丝雀检查（保证关键入口还能加载）。

这套机制让“自演化”更像“受控发布”，而不是“自我改写的黑箱”。

4）它为什么是“一个让 harness 更好的 harness”

OpenClaw、Codex、各类 Agent 框架，更多解决“怎么把当前任务做好”。Evolver 解决的是下一个问题：怎么让系统长期运行时不腐化、不退化，并持续积累有效改进。

在长期运行的 Agent 世界里，这往往才是决定体验与成本的关键：不是第一次跑通 demo，而是第 100 次、第 1000 次运行还能稳定、能持续变好。

5）结论：Agent 工程正在走向“自维护”

Evolver 这类系统传递了一个趋势：未来的 Agent 平台会分层：模型负责推理与生成，harness 负责执行与约束，而 evolver 负责维护与进化。

当“维护”被产品化，智能体才可能规模化。