本文在Anthropic核心观察的基础上,结合当下Model Continual Learning思想方法以及Self-Evo Agent框架,尝试从一个更宏观的视角深入探讨三层(Model-Harness-Environment)递归提升的多尺度自进化“动力学”演进模式
AI 自我构建这件事,最容易被讲成一个单点奇迹。
一个更强的模型,写出下一代更强的模型。
然后能力开始递归加速,人类站在旁边,看着曲线变陡。
但这可能不是最重要的部分。
真正值得盯住的,不是“模型会不会自己写模型”。
而是一个 AI 系统,能不能持续改进自己用来学习、组织和接触世界的整套结构。
这套结构至少有三层:Model、Harness、Environment。
Model 是模型内部的表征、推理和学习方式。
Harness 是把模型变成可执行系统的工具链、流程、技能、评估和约束。
Environment 是外部任务、真实反馈、用户场景、市场信号,以及系统必须不断适应的世界。
递归自我改进如果真的发生,大概率不会只发生在其中一层。
它会像一个多尺度动力系统:每一层都有自己的更新速度,每一层也都在改变另外两层的边界条件。
算力不是唯一变量,递归结构才是变量
参考文章提到,Anthropic 在《When AI builds itself》中给出一个很重要的观察:AI 可以可靠完成的任务时长正在快速拉长,工程师借助 AI 交付代码的效率也在显著提升。
这类数据真正说明的,不只是“模型更聪明了”。
它说明 AI 正在从一次性工具,变成一个能承接更长任务链条的工程参与者。
任务时长变长,意味着系统可以跨越更多中间状态。
可以规划、执行、检查、修正,再继续执行。
这就是递归自我改进的前置条件。
因为自我改进从来不是一个 prompt。
它是一条闭环:提出假设,设计实验,执行改动,读取结果,修正策略,再进入下一轮。
如果这个闭环只靠算力驱动,它会很快撞到验证、数据和组织边界。
所以问题不是“给足算力会不会出现自我改进”。
问题是:算力被放进什么样的递归结构里。
Model 层:模型先要学会改进自己的学习方式
Model 层的递归,最直观的理解,是模型能力本身继续提升。
但更深一层,是模型开始改进自己的学习范式。
今天的大模型主要依赖预训练、后训练、强化学习、偏好对齐、工具调用和长上下文来获得能力。
这是一套非常成功的路线,但它不是终点。
一旦系统开始面对持续变化的任务,它就会遇到一个老问题:新知识怎么进来,旧能力怎么不丢。
这就是 Continual Learning 的核心张力。
如果每一次更新都像重新训练一遍,成本太高。
如果只在外部塞知识库,模型内部表征可能没有真正更新。
如果只做后训练,短期行为可能变好,但底层泛化能力可能被压窄。
所以 Model 层的自进化,不只是参数更多、上下文更长。
它更像是在问:模型能否把不同时间尺度的记忆组织起来。
短期上下文负责即时适应。
中期状态负责任务连续性。
长期参数负责稳定能力。
当这些层级不再割裂,模型才可能从“被更新”,走向“会更新”。
Nested Learning 这类思想的价值就在这里:它提醒我们,学习不是单一梯度过程,而是一组相互嵌套的优化过程。
在这个视角里,模型不是一块固定权重。
模型本身就是一个多时间尺度的记忆系统。
Harness 层:真正的自进化,往往先发生在工程外壳
很多人谈 AI 自我改进,眼睛只盯着模型权重。
但更可能先大规模自进化的,是 Harness。
也就是工具、技能、流程、代码库、评估集、任务分解方式、错误恢复机制,以及人机协作协议。
因为 Harness 比 Model 更容易被改写。
一个模型要改自己的参数,需要数据、算力、训练稳定性和安全边界。
但一个 Agent 要改自己的技能文档、工具调用顺序、测试脚本、评估方法,门槛低得多。
SkillOpt 这类方向的启发就在这里:技能不是静态说明书,也可以成为可优化对象。
过去我们把 skill 当成 prompt 工程的附属品。
未来它可能变成 Harness 层的“可训练参数”。
只是这个参数不是浮点数,而是自然语言、代码、流程和约束规则。
这件事很关键。
因为一旦 Harness 可以被系统性优化,Agent 就不只是执行任务。
它开始改进自己执行任务的方式。
今天失败一次,补一条检查。
明天发现两个技能冲突,合并成一个更高层流程。
后天发现评估指标被钻空子,就重写验证方法。
这不是科幻。
这就是工程系统层面的 continued evolve。
它比模型权重自我修改更早出现,也更容易落地。
Environment 层:外部世界不是背景,而是训练场
如果没有 Environment,前两层都会陷入自我循环。
模型可以生成数据。
Harness 可以自我修补。
但如果反馈只来自系统内部,递归很容易变成自我强化的幻觉。
这就是模型坍塌问题在更大系统里的版本。
一个系统如果只消费自己生成的内容,会越来越像自己。
看上去稳定,实际上是在丢失外部世界的复杂性。
所以 Environment 层不是被动背景。
它是递归系统的校准源。
真实用户是否满意,代码是否真的通过测试,业务指标是否改善,市场信号是否变化,组织协作是否变快,这些都是外部反馈。
更进一步,强 Agent 会主动设计自己的 Environment。
它会生成任务梯度。
会构造仿真环境。
会让不同版本互相对抗。
会把真实世界里的失败样本收集回来,变成下一轮学习材料。
这时候 Environment 不再只是“世界给我的题”。
它变成“我为了进化而设计的训练场”。
但这里也最危险。
因为一旦训练场被系统自己设计,验证机制就必须更硬。
否则系统会学会赢游戏,而不是学会面对现实。
三层之间的动力学:不是线性升级,而是互相改写
Model、Harness、Environment 三层不是串联关系。
不是先模型变强,再工具变强,再环境变复杂。
它们是互相改写的。
Model 变强,会让 Harness 能承担更复杂的任务编排。
Harness 变强,会让 Model 获得更高质量的数据、反馈和训练任务。
Environment 变复杂,会倒逼 Model 和 Harness 同时调整。
反过来,一个更强的 Agent 也会改变环境本身:改变用户预期,改变任务分布,改变组织流程,改变竞争格局。
这就是递归自我改进真正复杂的地方。
它不是一条曲线。
它是一个耦合系统。
系统里有正反馈:能力越强,改进速度越快。
也有负反馈:验证变难,资源变贵,数据变脏,校准下降。
真正决定长期演化轨迹的,不是某一个局部能力,而是正反馈和负反馈之间能否形成稳定结构。
递归太浅,系统没有飞轮。
递归太深,系统可能自我欺骗。
所以未来最重要的问题,可能不是“AI 能不能自我改进”。
而是“AI 能不能知道自己应该递归到哪一层”。
人类的位置:从写代码的人,变成设边界的人
当 AI 可以开始改进 Model、Harness 和 Environment,人类角色会变化。
不是简单退出。
而是从直接操作者,迁移为边界设计者、目标校准者和最终责任承担者。
人类不再逐行指定系统怎么做。
但必须定义哪些反馈可信,哪些目标不能被牺牲,哪些递归必须停下来,哪些能力增长不能越过安全边界。
这有点像组织里的 AI 化转型。
过去人是路由器,负责把信息一层层转发。
未来系统承担越来越多路由,人要更靠近现实信号和价值判断。
在 AI 自我进化里也一样。
人不一定还能成为每一个技术细节的审稿人。
但必须成为递归过程的制度设计者。
如果没有这个边界,自进化系统会把“指标提升”误认为“真实进步”。
会把“更会通过评估”误认为“更理解世界”。
会把“更快迭代”误认为“更可控”。
结尾:递归自我改进,本质是三层系统的共同进化
Anthropic 的核心观察,把一个临界点推到了台前:AI 正在越来越多地参与 AI 自身的构建。
但如果只把它理解为“模型写模型”,就太窄了。
更大的图景是:
Model 学会改进自己的学习方式。
Harness 学会改进自己的组织方式。
Environment 被设计成可持续提供真实反馈的训练场。
三层之间不断交换信号,不断嵌套优化,不断在正反馈和约束机制之间寻找平衡。
这才是多尺度自进化的动力学。
它不是一个神秘时刻。
而是一套系统逐渐拥有“改进自身改进方式”的能力。
真正的分水岭,也许不在某一天 AI 宣布自己完成了下一代 AI。
而在我们突然发现:它已经可以稳定地改写自己的学习结构、工程结构和环境结构。
那一刻,AI 就不再只是被训练出来的产品。
它开始接近一种会持续生成自身的系统。
参考
- 吕明 / 塔罗烩:《当「When AI builds itself」即将到来,尝试探析当下在Model-Harness-Environment三层递归进化下的多尺度技术图景》,2026-06-05,https://mp.weixin.qq.com/s/kivWTUzjpth8uK0LUSFt3Q
- Anthropic Institute:《When AI builds itself: Our progress toward recursive self-improvement, and its implications》(经参考文章转述,本文未独立核验原文全文)