智谱唐杰：我猜测，像Claude这样的模型，可能已经实现了某种基础层面的“自我训练”能力：自己编写代码、自己清洗数据、自己生成合成数据、再利用这些数据训练自己

2026-05-13

我越来越在意一个问题：

模型到底是在“回答问题”，还是在“改造自己”。

前者再强，也只是工具。

后者一旦成立，世界就要换一套速度。

我看到智谱 AI 的唐杰在 X 上提到一个猜测：像 Claude 这样的模型，可能已经实现了某种基础层面的“自我训练”能力——自己编写代码、自己清洗数据、自己生成合成数据、再利用这些数据训练自己。

这句话很短，但它指向的是一个非常硬的分水岭。

1. 真正的差距不是模型大小，是闭环长度

很多人把竞争理解成三个词：

更大的模型。

更多的参数。

更多的算力。

但这些都不是根。

根是闭环。

如果一个模型的迭代依赖人类：写训练脚本、设计数据策略、清洗数据、标注、跑实验、分析结果、再开会决定下一轮。

那它的速度上限就是组织速度。

组织速度的上限，往往是日历。

而一旦模型开始具备“自我训练”的最小闭环，它的速度上限就变成系统速度。

系统速度的上限，往往是机器的吞吐。

这个差别决定的不是“一个月领先还是两个月领先”。

决定的是：能不能把追赶者甩到另一个时代。

2. 自我训练不是玄学，它拆开来其实是四件很工程的事

把“自己训练自己”拆开，其实像一条很朴素的流水线：

1）自己写代码：把新想法落成可跑的训练/评测脚本，自动化管道能不断试。

2）自己清洗数据：把噪声、重复、污染、版权风险从数据里剔掉，或至少打标、分桶、降权。

3）自己生成合成数据：不是随便编，而是围绕薄弱环节定向造题、造反例、造边界条件。

4）再用这些数据训练自己：把数据喂回训练环节，形成下一轮能力分布的变化。

你会发现，这里没有任何一步需要“意识觉醒”。

需要的是：工具链足够自动化，反馈足够快，评测足够可信。

而这恰好对应唐杰提到的三根支柱：记忆、持续学习、自我判断。

3. 为什么大家突然开始聊“长周期任务”

短任务时代，模型像一个聪明的答题机。

输入一句话，输出一段话。

这类系统的瓶颈往往在“会不会说”。

但长周期任务（Long-Horizon Tasks）不同。

它逼着系统在环境里持续行动、持续回看、持续纠错。

你让它做一个复杂项目，它得学会：

先拿到一手信息
再做最小实验
再决定下一步
再把失败变成训练素材

如果做不到，长任务就会拖垮它。

所以长周期任务其实是“自我训练能力”的前置训练场。

你先让它能在世界里跑起来。

跑着跑着，它才会产生“把自己改得更能跑”的需求。

4. 最危险的一点：自我训练节省的不是算力，是人类时间

唐杰的那段话里有一句很关键：这可能会“浪费”部分算力，但它节省了最宝贵的资源——人类劳动与时间。

这句话说的是现实。

在 LLM 时代，算力贵。

但人类时间更贵。

因为人类时间是不可并行、不可复制、不可无限扩展的。

一家公司真正的瓶颈，常常不是 GPU 不够。

而是：

数据策略讨论不过来
工程管道搭不过来
评测体系建不起来
迭代决策慢到错过窗口

如果模型能把其中一部分变成自动化系统行为，那么领先的本质就变成：

谁先把“人类工作”压缩成“系统动作”。

5. 这也解释了为什么大家都在堆集群

坊间一直传闻“Claude 明年部署两百万张芯片级集群”。

我不评价数字真假。

但即便你把这个数字打个对折，再对折，它仍然指向同一件事：

算力不只是拿来“回答更多问题”。

更可能是拿来“跑更短的迭代周期”。

当模型开始自己造数据、自己训练自己，你需要的不是一次训练跑得多快。

你需要的是：一年里能跑多少轮。

6. 如果这条路成立，面向未来的组织会长得很不一样

过去的研发组织像一个齿轮箱：

信息进来。

人讨论。

人写。

人测。

人发布。

AI 时代的研发组织更像一个飞轮：

系统自己转。

人只负责给约束、给目标、给边界、给评测。

这会让“管理”这个词发生语义漂移。

管理不再是协调会议。

而是设计约束。

把反馈信号做得足够清晰，把错误成本控制在足够小的范围内，让系统可以高速试错。

参考

微信整理稿：AI最终形态？「智谱AI」唐杰分享最新思考 https://mp.weixin.qq.com/s/q9VruL0Fg2KB0wDp-sleAQ