本文在Anthropic核心观察的基础上，结合当下Model Continual Learning思想方法以及Self-Evo Agent框架，尝试从一个更宏观的视角深入探讨三层（Model-Harness-Environment）递归提升的多尺度自进化“动力学”演进模式

2026-06-06

AI 自我构建这件事，最容易被讲成一个单点奇迹。

一个更强的模型，写出下一代更强的模型。

然后能力开始递归加速，人类站在旁边，看着曲线变陡。

但这可能不是最重要的部分。

真正值得盯住的，不是“模型会不会自己写模型”。

而是一个 AI 系统，能不能持续改进自己用来学习、组织和接触世界的整套结构。

这套结构至少有三层：Model、Harness、Environment。

Model 是模型内部的表征、推理和学习方式。

Harness 是把模型变成可执行系统的工具链、流程、技能、评估和约束。

Environment 是外部任务、真实反馈、用户场景、市场信号，以及系统必须不断适应的世界。

递归自我改进如果真的发生，大概率不会只发生在其中一层。

它会像一个多尺度动力系统：每一层都有自己的更新速度，每一层也都在改变另外两层的边界条件。

算力不是唯一变量，递归结构才是变量

参考文章提到，Anthropic 在《When AI builds itself》中给出一个很重要的观察：AI 可以可靠完成的任务时长正在快速拉长，工程师借助 AI 交付代码的效率也在显著提升。

这类数据真正说明的，不只是“模型更聪明了”。

它说明 AI 正在从一次性工具，变成一个能承接更长任务链条的工程参与者。

任务时长变长，意味着系统可以跨越更多中间状态。

可以规划、执行、检查、修正，再继续执行。

这就是递归自我改进的前置条件。

因为自我改进从来不是一个 prompt。

它是一条闭环：提出假设，设计实验，执行改动，读取结果，修正策略，再进入下一轮。

如果这个闭环只靠算力驱动，它会很快撞到验证、数据和组织边界。

所以问题不是“给足算力会不会出现自我改进”。

问题是：算力被放进什么样的递归结构里。

Model 层：模型先要学会改进自己的学习方式

Model 层的递归，最直观的理解，是模型能力本身继续提升。

但更深一层，是模型开始改进自己的学习范式。

今天的大模型主要依赖预训练、后训练、强化学习、偏好对齐、工具调用和长上下文来获得能力。

这是一套非常成功的路线，但它不是终点。

一旦系统开始面对持续变化的任务，它就会遇到一个老问题：新知识怎么进来，旧能力怎么不丢。

这就是 Continual Learning 的核心张力。

如果每一次更新都像重新训练一遍，成本太高。

如果只在外部塞知识库，模型内部表征可能没有真正更新。

如果只做后训练，短期行为可能变好，但底层泛化能力可能被压窄。

所以 Model 层的自进化，不只是参数更多、上下文更长。

它更像是在问：模型能否把不同时间尺度的记忆组织起来。

短期上下文负责即时适应。

中期状态负责任务连续性。

长期参数负责稳定能力。

当这些层级不再割裂，模型才可能从“被更新”，走向“会更新”。

Nested Learning 这类思想的价值就在这里：它提醒我们，学习不是单一梯度过程，而是一组相互嵌套的优化过程。

在这个视角里，模型不是一块固定权重。

模型本身就是一个多时间尺度的记忆系统。

Harness 层：真正的自进化，往往先发生在工程外壳

很多人谈 AI 自我改进，眼睛只盯着模型权重。

但更可能先大规模自进化的，是 Harness。

也就是工具、技能、流程、代码库、评估集、任务分解方式、错误恢复机制，以及人机协作协议。

因为 Harness 比 Model 更容易被改写。

一个模型要改自己的参数，需要数据、算力、训练稳定性和安全边界。

但一个 Agent 要改自己的技能文档、工具调用顺序、测试脚本、评估方法，门槛低得多。

SkillOpt 这类方向的启发就在这里：技能不是静态说明书，也可以成为可优化对象。

过去我们把 skill 当成 prompt 工程的附属品。

未来它可能变成 Harness 层的“可训练参数”。

只是这个参数不是浮点数，而是自然语言、代码、流程和约束规则。

这件事很关键。

因为一旦 Harness 可以被系统性优化，Agent 就不只是执行任务。

它开始改进自己执行任务的方式。

今天失败一次，补一条检查。

明天发现两个技能冲突，合并成一个更高层流程。

后天发现评估指标被钻空子，就重写验证方法。

这不是科幻。

这就是工程系统层面的 continued evolve。

它比模型权重自我修改更早出现，也更容易落地。

Environment 层：外部世界不是背景，而是训练场

如果没有 Environment，前两层都会陷入自我循环。

模型可以生成数据。

Harness 可以自我修补。

但如果反馈只来自系统内部，递归很容易变成自我强化的幻觉。

这就是模型坍塌问题在更大系统里的版本。

一个系统如果只消费自己生成的内容，会越来越像自己。

看上去稳定，实际上是在丢失外部世界的复杂性。

所以 Environment 层不是被动背景。

它是递归系统的校准源。

真实用户是否满意，代码是否真的通过测试，业务指标是否改善，市场信号是否变化，组织协作是否变快，这些都是外部反馈。

更进一步，强 Agent 会主动设计自己的 Environment。

它会生成任务梯度。

会构造仿真环境。

会让不同版本互相对抗。

会把真实世界里的失败样本收集回来，变成下一轮学习材料。

这时候 Environment 不再只是“世界给我的题”。

它变成“我为了进化而设计的训练场”。

但这里也最危险。

因为一旦训练场被系统自己设计，验证机制就必须更硬。

否则系统会学会赢游戏，而不是学会面对现实。

三层之间的动力学：不是线性升级，而是互相改写

Model、Harness、Environment 三层不是串联关系。

不是先模型变强，再工具变强，再环境变复杂。

它们是互相改写的。

Model 变强，会让 Harness 能承担更复杂的任务编排。

Harness 变强，会让 Model 获得更高质量的数据、反馈和训练任务。

Environment 变复杂，会倒逼 Model 和 Harness 同时调整。

反过来，一个更强的 Agent 也会改变环境本身：改变用户预期，改变任务分布，改变组织流程，改变竞争格局。

这就是递归自我改进真正复杂的地方。

它不是一条曲线。

它是一个耦合系统。

系统里有正反馈：能力越强，改进速度越快。

也有负反馈：验证变难，资源变贵，数据变脏，校准下降。

真正决定长期演化轨迹的，不是某一个局部能力，而是正反馈和负反馈之间能否形成稳定结构。

递归太浅，系统没有飞轮。

递归太深，系统可能自我欺骗。

所以未来最重要的问题，可能不是“AI 能不能自我改进”。

而是“AI 能不能知道自己应该递归到哪一层”。

人类的位置：从写代码的人，变成设边界的人

当 AI 可以开始改进 Model、Harness 和 Environment，人类角色会变化。

不是简单退出。

而是从直接操作者，迁移为边界设计者、目标校准者和最终责任承担者。

人类不再逐行指定系统怎么做。

但必须定义哪些反馈可信，哪些目标不能被牺牲，哪些递归必须停下来，哪些能力增长不能越过安全边界。

这有点像组织里的 AI 化转型。

过去人是路由器，负责把信息一层层转发。

未来系统承担越来越多路由，人要更靠近现实信号和价值判断。

在 AI 自我进化里也一样。

人不一定还能成为每一个技术细节的审稿人。

但必须成为递归过程的制度设计者。

如果没有这个边界，自进化系统会把“指标提升”误认为“真实进步”。

会把“更会通过评估”误认为“更理解世界”。

会把“更快迭代”误认为“更可控”。

结尾：递归自我改进，本质是三层系统的共同进化

Anthropic 的核心观察，把一个临界点推到了台前：AI 正在越来越多地参与 AI 自身的构建。

但如果只把它理解为“模型写模型”，就太窄了。

更大的图景是：

Model 学会改进自己的学习方式。

Harness 学会改进自己的组织方式。

Environment 被设计成可持续提供真实反馈的训练场。

三层之间不断交换信号，不断嵌套优化，不断在正反馈和约束机制之间寻找平衡。

这才是多尺度自进化的动力学。

它不是一个神秘时刻。

而是一套系统逐渐拥有“改进自身改进方式”的能力。

真正的分水岭，也许不在某一天 AI 宣布自己完成了下一代 AI。

而在我们突然发现：它已经可以稳定地改写自己的学习结构、工程结构和环境结构。

那一刻，AI 就不再只是被训练出来的产品。

它开始接近一种会持续生成自身的系统。

参考

吕明 / 塔罗烩：《当「When AI builds itself」即将到来，尝试探析当下在Model-Harness-Environment三层递归进化下的多尺度技术图景》，2026-06-05，https://mp.weixin.qq.com/s/kivWTUzjpth8uK0LUSFt3Q
Anthropic Institute：《When AI builds itself: Our progress toward recursive self-improvement, and its implications》（经参考文章转述，本文未独立核验原文全文）