在 Palo Alto 聊的几家 AI-native 创业公司里,一个工程师一年的 token 预算,大概在二十多万美元
五源资本合伙人孟醒刚从硅谷回来,发了一篇文章,标题叫"全员 token-maxxing,一场没人敢停的军备竞赛"。
他在 YC W26 的 Demo Day 观众席上,听到第五家创业公司上台时,就不再做笔记了。不是觉得不重要,而是意识到,记下来的东西,可能下个月就过时了。
这不是一个感慨,是一个观察结论。
Meta 扔掉了代码安全这面旗
放在半年前,没有人相信 Meta 会让几万名工程师全用 Anthropic 的 API 写代码。
代码是公司核心资产,这个常识没有人不懂。Meta 自己也做过内部产品叫 myclaw,试图解决安全顾虑——做出来了,没人用。
于是公司放宽了规则:只要不碰客户数据,爱用 Claude Code 就用。
这意味着什么?意味着"效率优先"已经压过了安全红线。不是悄悄放开,而是显性决策:先把速度赶上来,安全问题排后面。
Google 大多数员工还是禁止的,但 DeepMind 内部的几个核心团队,照样在用 Claude Code。原因是 Anthropic 的推理本来就跑在谷歌云的 TPU 上,双方有信任基础,可以私有化部署。
一家公司内部,两套标准。
二十多万美元的 token 预算
Palo Alto 那几家 AI-native 创业公司里,一个工程师一年的 token 消耗,折成美元大概在二十多万。
这个数字本身不奇怪。奇怪的是对比:一个顶级工程师的年薪,也差不多在这个量级。
也就是说,公司为了一个工程师,需要同时支付两份"工资":一份给人,一份给 token。
用 AI 来降本,是这两年硅谷的主流叙事。现实是,总成本可能根本没降,只是把人的成本换成了 token 成本。
Meta 更进一步,搞了一个内部 token 消耗排行榜。谁用得多谁上榜,末尾的可能被裁员。于是员工开始卷一个叫"token legend"的非官方头衔。
同一时间,Meta 两轮裁员,合计上万人。
一边鼓励烧 token,一边大裁员。这不是矛盾,是同一件事的两面:AI 替代的岗位被裁掉,留下来的人被要求用更多 token 产出更多价值。
效率提升了 100 倍,营收只长了 1 倍
这是孟醒最值得注意的一个观察。
他遇到很多 CTO 兴奋地讲"百倍效率":以前 60 个人一年做的事,现在 2 个人加 Claude Code 一周搞定。他最初也跟着兴奋。
后来他开始问一个问题:效率提升了 100 倍,营收增长了多少?
没人能给他正面回答。事实是,100 倍的效率提升,落到营收上,体现了 50% 到 1 倍。
差距去哪里了?没人说得清楚。
用 vibe coding 尝试 100 种做法,比只试 10 种多了 90 倍的可能性。但更多的尝试,不等于更多有 PMF 的产品。
xAI:造火箭的管理方式,造不了好模型
孟醒在 Mountain View 一家牛排馆,和一位前 xAI 员工聊了三个多小时。整个过程里,那位朋友似乎没说过一句马斯克的好话。
早期团队走了 90%。导火索是 Tony Wu 离开,之后连锁反应,“别的公司酝酿半年的出走,xAI 只用了一个月”。
为什么?
马斯克做 SpaceX 和特斯拉,本质上是系统工程:链路长,有创新空间,但最终是端到端的工程问题。他擅长识别关键杠杆点,极限压缩时间线来攻克。
xAI 的问题是:他用同样的方法管模型公司——砸全球最大 GPU 集群,定脉冲式 deadline,亲自拍产品特征。这不是系统工程,是抓几个点。
在大模型公司,软件、infra、硬件三个方向都需要 CTO 级别的人做决策,没有人同时懂这三个领域。好的创始人知道怎么平衡资源、确定阶段性优先级。这叫全局规划。
超高压管理加上没有全局规划,聪明人各自保自己的优先级,没人做统筹。一压就散。
SpaceX 和特斯拉成功,被忽略的原因之一是:马斯克在这两个行业里基本没遇到过同等量级的竞争对手。AI 不一样,AI 是连 OpenAI 都可能被 Anthropic 偷家的惨烈竞争。
蒸汽机还没跑过马车
孟醒对 2026 年 4 月的判断:
蒸汽机已经发明出来了,但它有时候跑得还没有马车快。
Anthropic 内部的 oncall agent 就是例子。oncall 工程师要快速定位线上问题——这个场景离 Anthropic 核心能力近得不能再近了,结果他们自己的内部 oncall agent 还是不好用。
但所有人都知道蒸汽机终将跑得更快,所以都在疯狂砸钱:代码安全不管了,token 预算炸了,排行榜卷起来了。
没有人敢停下来等那一天。
因为停下来的代价,可能比烧错 token 更大。
参考:全员token-maxxing,一场没人敢停的军备竞赛,晚点,2026-04-27