过去我们习惯用“每百万Token多少钱”来理解AI成本，但今天这个锚点已经失效——账单的主角是谁，取决于你在跑什么样的任务

2026-04-20

过去一年，我们很容易用一句话把 AI 成本说清楚：

“每百万 Token 多少钱？”

这个锚点很好用。

它像电价。

它让你相信：只要把用量乘以单价，你就能得到预算。

但今天，这个锚点开始失效。

不是因为 Token 不重要。

而是因为账单里出现了越来越多“不是 Token 的东西”，而且它们在不同任务里会突然变成大头。

于是成本的主角是谁，不取决于你选了哪个模型。

取决于你在跑什么样的任务。

锚点失效的第一征兆：价格页开始像“资源总账”

当你去看各家平台的价格页，会发现它们越来越不像“模型定价”。

更像“资源结算”。

Token 只是其中一列。

除此之外，还有：

search / grounding：一次联网检索按次数收费
cache：写入、命中、不同倍率
runtime：会话跑了多久
container：环境开了多久、多大
seat：团队席位
storage：检索存储按 GB/天
outcome：按“完成件”收费

你很难再用一个统一公式把它们抹平。

更要命的是：这些收费项不是装饰。

它们会在某些任务里突然压倒 Token。

同样的 Token 数，账单能差一个数量级

想象两类最常见的企业任务。

第一类：轻量、高频、以检索为主的问答。

你让 AI 做的主要工作不是“推理”。

而是“找”。

这类任务里，Token 可能很少。

但 search/grounding 的次数很多。

于是账单的主角变成了“每次搜索多少钱”，而不是“每百万 Token 多少钱”。

第二类：推理密集、生成密集的任务。

比如代码、长文、复杂规划。

你让 AI 的主要工作是“想”。

这类任务里，Token 自然会回到主角位置。

工具调用可能有，但通常只是配角。

同样的“调用一次”，同样的“输入输出规模”，只要任务的主形态换了，成本结构就会换。

这就是锚点失效的本质：

单位没有统一了。

账单为什么会变成“多单位叠加”？因为你买的不是裸模型

企业实际购买的，越来越像“一段被组织过的智能劳动”。

裸模型只是其中的一小部分。

一旦进入真实工作流，你就会天然需要：

上下文驻留（否则每次都要重新喂）
缓存（否则重复问题重复付费）
搜索增强（否则回答不新鲜）
文件检索（否则它读不到你的材料）
长时运行（否则 agent 做不完）
观测与治理（否则你不敢上线）

这些东西是“系统成本”。

它们以前藏在工程团队的人力里。

今天被产品化，并进入账单。

于是你会看到一个很现实的局面：

你花钱买的，已经不是“智能”。

而是“智能如何在你的流程里可交付”。

关键不是“哪个模型更便宜”，而是“你的工作负载长什么样”

当计费单位从一维变成多维，比较方式也必须换。

过去你可以问：

哪个模型每百万 Token 更便宜？

现在你得问：

在我的工作负载下，哪一套组合的综合成本更低？

这句话听起来像废话。

但它会直接改变三件事。

第一个改变：Model Router 从“选模型”变成“选账单结构”

很多人把 router 理解成“性能/价格的自动平衡”。

但在多单位账单时代，它更像一个结算结构的开关。

你把检索密集任务路由到某个策略上，账单主角就是 search。

你把推理密集任务路由到另一个策略上，账单主角就是 token。

甚至同一个业务，只要把“先查再写”和“先写再查”的顺序改一下，

search 次数、cache 命中率、runtime 时长都可能完全不同。

router 变成了成本工程的一部分。

第二个改变：缓存策略不再是“优化”，而是“预算控制”

以前缓存是工程师的美德。

今天缓存是财务口径的一部分。

因为它直接决定：

你到底是在为“重复上下文”付费
还是在为“新增推理”付费

当 cache write / cache hit 进入价格表，

缓存命中率就不再只是性能指标。

它是账单指标。

第三个改变：Outcome pricing 会重新吸引企业

按结果定价的诱惑在于：它把预算从“过程”移到“完成件”。

你不需要解释：

这次用了多少 token，跑了多久 runtime，调用了多少 search。

你只需要对齐一件事：

什么算“完成”。

它听起来更像合同，而不是账单。

但这恰恰是很多企业真正想要的。

因为他们最终要管理的不是 token。

是交付。

结尾：Token 还在，但它不能单独解释这门生意

“每百万 Token 多少钱”仍然是一个有用的参考。

它不会消失。

它会变成底层电价。

但它不会再是你理解全部成本的那根绳子。

当账单被拆成 search、cache、runtime、seat、outcome 这些成本结构，

企业最终为哪一层买单，就会决定价值沉淀在哪一层。

成本的主角是谁，也不再是一个模型排行榜能决定的。

它取决于你在跑什么样的任务。

参考

36氪文章《Token计算：下一个十年的成本战争》：https://36kr.com/p/3774635621040899