skills即将被LLM吞噬？

2026-05-03

半年前，Anthropic 把“Skills”这个词抛出来的时候，行业里有一种集体的兴奋。

它像是给 AGI 找到了一套外挂装甲：模型负责思考，技能负责执行；模型会犯错，但技能可以兜底；模型不稳定，但技能可以固化。

那段时间，大家疯了一样堆组件：OpenSpec、Superpowers、Harness……像在拼一台更强的“Agent 机甲”。

但最近我越来越不确定：我们拼的这套装甲，会不会很快变成模型训练语料的一部分，最后被模型“吞”回去。

这不是玄学判断。

我看到至少四个信号同时出现。

信号一：团队内部开始“弃用”

最真实的风向，不是 Twitter，不是论文，是团队开会。

当一群工程师深度用了两个月某套 skills 组件，最后反馈一句“以后不用了”，这个信号很重。

原因也往往简单：新一代模型已经无声无息地内生了这些能力。

原本需要外挂的，现在模型抬手就能做。

一旦体验差距缩小，skills 就会从“必需品”退化成“维护负担”。

信号二：skills 的运行数据正在反向喂养模型

skills 不是代码这么简单。

它更像一台数据机器：每一次调用、每一个失败、每一条修复链路、每一次人类纠错，都在生成高质量的训练样本。

当你把“如何使用工具”“如何规划步骤”“如何自我纠错”做成一套工程编排，你同时也在把这些过程结构化地记录下来。

而结构化的过程，天然适合成为下一代模型的养分。

从这个角度看，skills 有一种宿命：它越成功，越容易把自己变成训练教材。

信号三：模型开始用“原生 Agent”方式训练

如果模型的训练目标本身就包含长任务协同执行（Agent orchestration），那许多原本属于 skills 层的能力，就会被直接塞进模型。

这意味着“工具层能力”的边界会被向下挤压。

过去我们把它称为架构分层：模型是大脑，skills 是手脚。

但当训练方法把“手脚的协调”也变成模型的一部分，分层就会被重新洗牌。

信号四：OpenAI 的集体沉默

有时候，最强的信号不是“他们在说什么”，而是“他们不说什么”。

如果你翻遍某家公司的公开技术文档，几乎闭口不提 skills，这往往意味着两种可能：

一种是他们不认为这是核心。

另一种是他们在走一条更底层的路径——底层到不需要把“skills”作为一个显式概念对外讲。

于是出现两种判断

把这四个信号放在一起，会自然导出一个结论：

LLM 正在吞掉 skills。

但“吞掉”有两种版本。

判断 A：全量吞噬

所有 skills 都会被 LLM 内化。

通用能力不会长期停留在工具层。

编写 skills 的过程，本质上是给模型做嫁妆：你把流程跑通，把数据打干净，把失败案例补齐，最后这些都会变成模型的能力。

如果 A 成立，那么通用 skills 最终的命运是：越来越薄，越来越像“临时拐杖”。

判断 B：动态共存

通用 skills 会被吞掉。

但 skills 不会消失，它会退化成边界层能力：只存在于专有垂直领域，存在于合规、权限、成本、私有数据、业务规则这些“模型不能随意跨过去”的地方。

如果 B 成立，skills 的价值不是“补齐模型能力”，而是“把模型能力限制在一个可控的边界里”。

我更倾向哪一个？

我更倾向于：A 会发生在通用能力上，B 会发生在真实业务里。

也就是说：

你今天写的“通用搜索/通用工具调用/通用代码生成”类 skills，很可能会被模型快速追平。
但你今天写的“权限边界、审计链路、业务规则、成本控制、风险兜底”类 skills，反而会变得更重要。

模型越强，对边界的需求越强。

工程上应该怎么做（不让 skills 白做）

如果你把 skills 当成“外挂能力本体”，那确实容易被吞掉。

但如果你把 skills 当成“可控系统的控制平面”，它就不容易被吞。

我会给三个非常工程化的建议。

第一：把 skills 写成“可评估”的系统，而不是“可运行”的脚本

能跑不算赢。

要能评估：成功率、成本、时延、失败类型分布、回退路径命中率。

模型会变，工具会变，环境会变。

没有评估，你就不知道到底是模型吞掉了 skills，还是你被随机波动吓退了。

第二：把 skills 的价值放到“边界”上

最难的不是让模型会用工具。

最难的是：

只能用哪些工具
什么时候必须停下来问人
什么情况下要拒绝执行
结果怎么做审计回溯

这些边界条件，是通用模型最难替你承担的。

第三：接受一个现实：skills 越成功，越像训练数据

这不是坏事。

你可以把它当作一种“数据飞轮”：

skills 把任务跑通
过程产生高质量轨迹
轨迹喂回模型或喂回你的评估体系
模型更强/系统更稳

只要你掌握评估与边界，skills 即使被“吞掉”，你也不会失去控制权。

最后一个问题

所以，我们做的这些工程编排，到底是在构建未来，还是在给下一代模型做训练数据？

答案可能是：两者都是。

区别在于，你有没有把“边界、评估、审计”握在自己手里。