智谱唐杰:我猜测,像Claude这样的模型,可能已经实现了某种基础层面的“自我训练”能力:自己编写代码、自己清洗数据、自己生成合成数据、再利用这些数据训练自己
我越来越在意一个问题:
模型到底是在“回答问题”,还是在“改造自己”。
前者再强,也只是工具。
后者一旦成立,世界就要换一套速度。
我看到智谱 AI 的唐杰在 X 上提到一个猜测:像 Claude 这样的模型,可能已经实现了某种基础层面的“自我训练”能力——自己编写代码、自己清洗数据、自己生成合成数据、再利用这些数据训练自己。
这句话很短,但它指向的是一个非常硬的分水岭。
1. 真正的差距不是模型大小,是闭环长度
很多人把竞争理解成三个词:
更大的模型。
更多的参数。
更多的算力。
但这些都不是根。
根是闭环。
如果一个模型的迭代依赖人类:写训练脚本、设计数据策略、清洗数据、标注、跑实验、分析结果、再开会决定下一轮。
那它的速度上限就是组织速度。
组织速度的上限,往往是日历。
而一旦模型开始具备“自我训练”的最小闭环,它的速度上限就变成系统速度。
系统速度的上限,往往是机器的吞吐。
这个差别决定的不是“一个月领先还是两个月领先”。
决定的是:能不能把追赶者甩到另一个时代。
2. 自我训练不是玄学,它拆开来其实是四件很工程的事
把“自己训练自己”拆开,其实像一条很朴素的流水线:
1)自己写代码:把新想法落成可跑的训练/评测脚本,自动化管道能不断试。
2)自己清洗数据:把噪声、重复、污染、版权风险从数据里剔掉,或至少打标、分桶、降权。
3)自己生成合成数据:不是随便编,而是围绕薄弱环节定向造题、造反例、造边界条件。
4)再用这些数据训练自己:把数据喂回训练环节,形成下一轮能力分布的变化。
你会发现,这里没有任何一步需要“意识觉醒”。
需要的是:工具链足够自动化,反馈足够快,评测足够可信。
而这恰好对应唐杰提到的三根支柱:记忆、持续学习、自我判断。
3. 为什么大家突然开始聊“长周期任务”
短任务时代,模型像一个聪明的答题机。
输入一句话,输出一段话。
这类系统的瓶颈往往在“会不会说”。
但长周期任务(Long-Horizon Tasks)不同。
它逼着系统在环境里持续行动、持续回看、持续纠错。
你让它做一个复杂项目,它得学会:
- 先拿到一手信息
- 再做最小实验
- 再决定下一步
- 再把失败变成训练素材
如果做不到,长任务就会拖垮它。
所以长周期任务其实是“自我训练能力”的前置训练场。
你先让它能在世界里跑起来。
跑着跑着,它才会产生“把自己改得更能跑”的需求。
4. 最危险的一点:自我训练节省的不是算力,是人类时间
唐杰的那段话里有一句很关键:这可能会“浪费”部分算力,但它节省了最宝贵的资源——人类劳动与时间。
这句话说的是现实。
在 LLM 时代,算力贵。
但人类时间更贵。
因为人类时间是不可并行、不可复制、不可无限扩展的。
一家公司真正的瓶颈,常常不是 GPU 不够。
而是:
- 数据策略讨论不过来
- 工程管道搭不过来
- 评测体系建不起来
- 迭代决策慢到错过窗口
如果模型能把其中一部分变成自动化系统行为,那么领先的本质就变成:
谁先把“人类工作”压缩成“系统动作”。
5. 这也解释了为什么大家都在堆集群
坊间一直传闻“Claude 明年部署两百万张芯片级集群”。
我不评价数字真假。
但即便你把这个数字打个对折,再对折,它仍然指向同一件事:
算力不只是拿来“回答更多问题”。
更可能是拿来“跑更短的迭代周期”。
当模型开始自己造数据、自己训练自己,你需要的不是一次训练跑得多快。
你需要的是:一年里能跑多少轮。
6. 如果这条路成立,面向未来的组织会长得很不一样
过去的研发组织像一个齿轮箱:
信息进来。
人讨论。
人写。
人测。
人发布。
AI 时代的研发组织更像一个飞轮:
系统自己转。
人只负责给约束、给目标、给边界、给评测。
这会让“管理”这个词发生语义漂移。
管理不再是协调会议。
而是设计约束。
把反馈信号做得足够清晰,把错误成本控制在足够小的范围内,让系统可以高速试错。
参考
- 微信整理稿:AI最终形态?「智谱AI」唐杰分享最新思考 https://mp.weixin.qq.com/s/q9VruL0Fg2KB0wDp-sleAQ