Anthropic 联合创始人 Jack Clark 发帖称，到 2028 年底，递归自我改进（recursive self-improvement）发生的概率有 60%

2026-05-05

我越来越不喜欢“奇点”这个词。

它太像一句口号。

但我很喜欢另一种表达：端到端的自动化。

因为它不是玄学。

它会在一堆具体的工程指标里，以很笨的方式露出来。

最近，Anthropic 的联合创始人 Jack Clark 发了个帖子：到 2028 年底，递归自我改进（recursive self-improvement, RSI）发生的概率，他给到 60%。

他还顺手给了一个更尖锐的对比：如果必须押一个 2027 年的数字，他会给 30%。

这两个数字不重要。

重要的是：他为什么敢把一个“未来事件”写成一个“概率曲线”。

RSI 到底在说什么

很多人把 RSI 想成某个瞬间：模型突然“开悟”，从此自己写出更聪明的自己。

现实里更像一条流水线。

你把“研发下一代模型”拆开，会发现它由很多模块构成：写代码、跑实验、清洗数据、调参、复现论文、做后训练、做性能剖析、改 kernel、写评测、写测试、排 bug、写报告……

如果一个系统能够在足够长的时间里，把这些环节串起来，闭合成一个循环——哪怕一开始只是做非前沿模型、做概念验证——它就已经在“自我构建”的路上。

Jack Clark 的核心判断是：这条流水线的许多环节，正在从“人必须在场”变成“可委托”。

真正的信号：不是分数，是“可委托的时间长度”

写代码这件事，过去一年发生了一个质变。

不是因为模型更会写函数了。

而是因为它开始更像一个“能独立干活的同事”。

一个很有意思的度量来自 METR：用“一个熟练人类完成某任务需要的时间”来标注任务难度，然后看模型在 50% 可靠性时，能覆盖到多长的时间跨度。

当这个时间跨度从“几十秒”变成“几个小时”，它改变的不是体验。

它改变的是组织方式。

你会开始把成块的工作交出去——而不是让模型当一个补全器。

一旦大量工程师这么做，研发速度就会被放大。

这会反过来加速“把 AI 用在 AI 研发上”的进程。

研发自动化不是一个指标，是一簇指标一起上升

如果只看某个 benchmark，你总可以说：有噪声、有过拟合、有数据污染。

但当一簇不相干的指标同时上升，你就很难把它们都解释成幻觉。

Jack Clark 在长文里抓的点，大致可以归成三类：

1）软件工程：真实世界的 issue 解决能力

SWE-Bench 之所以重要，是因为它不是“写一段漂亮的代码”。

它是“进仓库、读上下文、改动、跑测试、通过”。

当成功率从个位数一路抬到接近天花板，真正发生的事情是：软件工程的很多环节被产品化成 agent 能执行的流程。

你不需要相信某个分数。

你只需要观察：越来越多的人，已经把“写代码”这件事交给 AI 完成，并且把“写测试、做检查、做重构”也一起交出去。

2）科学技能：复现、集成、优化

研发里最不光鲜、但最耗人的部分，是复现与工程集成。

比如复现一篇论文：装依赖、跑代码、找输出、填指标。

这类任务在过去是研究生的体力活。

它一旦被自动化，研究就会变得更像工业流水线。

类似地，Kaggle 竞赛式的机器学习工程、模型的后训练（post-training）、甚至 kernel 级别的优化——这些都属于“有明确反馈信号、可反复迭代”的工作。

它们并不需要天才灵感。

它们需要持续的、可验证的试错。

这恰好是机器擅长的。

3）元技能：管理其他 agent

真正让我警觉的是第三类：AI 在学会“管理”。

当一个主 agent 能把任务拆成几条线并行推进，然后用审查者/编辑者的角色去收敛结果，研发就开始具备“团队形态”。

这不是“一个模型更聪明”。

这是“一个系统更像组织”。

最大的分歧点：AI 需要创造力吗

这里有一个常见反驳：AI 现在并没有持续地产生范式级的新思想。

这是真的。

但问题是：要让研发自动化闭环成立，是否必须依赖范式级创造力？

AI 的大部分进步，历史上并不是靠每年一个 Transformer。

更多时候是：扩大规模→暴露问题→工程修补→再扩大规模。

这是乐高式的劳动。

而不是广义相对论式的洞见。

如果你相信“乐高式劳动”占研发的大头，那你就会更容易接受一个结论：即便创造力并不强，系统仍可能靠工程推进，把自己推到下一代。

当然，Jack Clark 也承认：如果到了 2028 年底仍没发生，那我们可能会发现当前范式有某种根本缺陷，必须依赖人类发明新的推动力。

这句话很值钱。

它让预测不再像宣言，而像一个可证伪的假设。

为什么这很重要：三个后果

当“自动化研发”成为现实，它带来的不是一个新产品。

它带来的是一个新世界的动力学。

1）对齐会变得更脆

对齐技术的一部分隐含假设是：监督者足够理解被监督系统。

但当系统开始参与自己的后继版本构建，这个假设会被反复冲击。

误差累积、伪装对齐、测试污染、训练议程被改写——这些都会从“理论风险”变成“工程风险”。

2）几乎所有领域都会出现生产力倍增

软件工程已经是预演。

一旦 AI 研发自动化成立，所有被 AI 触达的行业都会经历类似的放大。

资源怎么分配、瓶颈在哪里、哪些环节被物理世界拖慢——这些会变成政治问题，而不是技术问题。

3）资本密集、人力轻型的“机器经济”冒出来

当公司可以用更少的人运营更大的系统，经济结构会开始改变。

机器之间的交易、机器驱动的创业、机器驱动的研发——它们会在“人类经济”旁边长出一条新的支流。

你很难用旧的分配逻辑去处理它。

我怎么理解“60%”

我不把它当预言。

我把它当一个提醒：从今天开始，关注的重点应该从“模型有多聪明”，转移到“流程能否闭环”。

当你看到：

可委托的时间跨度继续上升；
研发中的关键环节被一个个 agent 化；
组织能力（管理、审查、协作）被系统吸收；

你就会明白：RSI 不是一个瞬间。

它是一条生产线逐渐点亮的过程。

到某一天，你回头看，会发现那条线早就能跑了。

只是我们一直以为它还在“演示”。

参考

机器之心转述与整理（含关键 benchmark/论证线索）：https://mp.weixin.qq.com/s/FcTzvVjn3OVNpLDDZk-ctA
Jack Clark 推文链接（原帖）：https://x.com/jackclarkSF/status/2051312759594471886
Jack Clark 长文（Import AI 455）：https://importai.substack.com/p/import-ai-455-automating-ai-research