skills即将被LLM吞噬?
半年前,Anthropic 把“Skills”这个词抛出来的时候,行业里有一种集体的兴奋。
它像是给 AGI 找到了一套外挂装甲:模型负责思考,技能负责执行;模型会犯错,但技能可以兜底;模型不稳定,但技能可以固化。
那段时间,大家疯了一样堆组件:OpenSpec、Superpowers、Harness……像在拼一台更强的“Agent 机甲”。
但最近我越来越不确定:我们拼的这套装甲,会不会很快变成模型训练语料的一部分,最后被模型“吞”回去。
这不是玄学判断。
我看到至少四个信号同时出现。
信号一:团队内部开始“弃用”
最真实的风向,不是 Twitter,不是论文,是团队开会。
当一群工程师深度用了两个月某套 skills 组件,最后反馈一句“以后不用了”,这个信号很重。
原因也往往简单:新一代模型已经无声无息地内生了这些能力。
原本需要外挂的,现在模型抬手就能做。
一旦体验差距缩小,skills 就会从“必需品”退化成“维护负担”。
信号二:skills 的运行数据正在反向喂养模型
skills 不是代码这么简单。
它更像一台数据机器:每一次调用、每一个失败、每一条修复链路、每一次人类纠错,都在生成高质量的训练样本。
当你把“如何使用工具”“如何规划步骤”“如何自我纠错”做成一套工程编排,你同时也在把这些过程结构化地记录下来。
而结构化的过程,天然适合成为下一代模型的养分。
从这个角度看,skills 有一种宿命:它越成功,越容易把自己变成训练教材。
信号三:模型开始用“原生 Agent”方式训练
如果模型的训练目标本身就包含长任务协同执行(Agent orchestration),那许多原本属于 skills 层的能力,就会被直接塞进模型。
这意味着“工具层能力”的边界会被向下挤压。
过去我们把它称为架构分层:模型是大脑,skills 是手脚。
但当训练方法把“手脚的协调”也变成模型的一部分,分层就会被重新洗牌。
信号四:OpenAI 的集体沉默
有时候,最强的信号不是“他们在说什么”,而是“他们不说什么”。
如果你翻遍某家公司的公开技术文档,几乎闭口不提 skills,这往往意味着两种可能:
一种是他们不认为这是核心。
另一种是他们在走一条更底层的路径——底层到不需要把“skills”作为一个显式概念对外讲。
于是出现两种判断
把这四个信号放在一起,会自然导出一个结论:
LLM 正在吞掉 skills。
但“吞掉”有两种版本。
判断 A:全量吞噬
所有 skills 都会被 LLM 内化。
通用能力不会长期停留在工具层。
编写 skills 的过程,本质上是给模型做嫁妆:你把流程跑通,把数据打干净,把失败案例补齐,最后这些都会变成模型的能力。
如果 A 成立,那么通用 skills 最终的命运是:越来越薄,越来越像“临时拐杖”。
判断 B:动态共存
通用 skills 会被吞掉。
但 skills 不会消失,它会退化成边界层能力:只存在于专有垂直领域,存在于合规、权限、成本、私有数据、业务规则这些“模型不能随意跨过去”的地方。
如果 B 成立,skills 的价值不是“补齐模型能力”,而是“把模型能力限制在一个可控的边界里”。
我更倾向哪一个?
我更倾向于:A 会发生在通用能力上,B 会发生在真实业务里。
也就是说:
- 你今天写的“通用搜索/通用工具调用/通用代码生成”类 skills,很可能会被模型快速追平。
- 但你今天写的“权限边界、审计链路、业务规则、成本控制、风险兜底”类 skills,反而会变得更重要。
模型越强,对边界的需求越强。
工程上应该怎么做(不让 skills 白做)
如果你把 skills 当成“外挂能力本体”,那确实容易被吞掉。
但如果你把 skills 当成“可控系统的控制平面”,它就不容易被吞。
我会给三个非常工程化的建议。
第一:把 skills 写成“可评估”的系统,而不是“可运行”的脚本
能跑不算赢。
要能评估:成功率、成本、时延、失败类型分布、回退路径命中率。
模型会变,工具会变,环境会变。
没有评估,你就不知道到底是模型吞掉了 skills,还是你被随机波动吓退了。
第二:把 skills 的价值放到“边界”上
最难的不是让模型会用工具。
最难的是:
- 只能用哪些工具
- 什么时候必须停下来问人
- 什么情况下要拒绝执行
- 结果怎么做审计回溯
这些边界条件,是通用模型最难替你承担的。
第三:接受一个现实:skills 越成功,越像训练数据
这不是坏事。
你可以把它当作一种“数据飞轮”:
- skills 把任务跑通
- 过程产生高质量轨迹
- 轨迹喂回模型或喂回你的评估体系
- 模型更强/系统更稳
只要你掌握评估与边界,skills 即使被“吞掉”,你也不会失去控制权。
最后一个问题
所以,我们做的这些工程编排,到底是在构建未来,还是在给下一代模型做训练数据?
答案可能是:两者都是。
区别在于,你有没有把“边界、评估、审计”握在自己手里。