过去我们习惯用“每百万Token多少钱”来理解AI成本,但今天这个锚点已经失效——账单的主角是谁,取决于你在跑什么样的任务
过去一年,我们很容易用一句话把 AI 成本说清楚:
“每百万 Token 多少钱?”
这个锚点很好用。
它像电价。
它让你相信:只要把用量乘以单价,你就能得到预算。
但今天,这个锚点开始失效。
不是因为 Token 不重要。
而是因为账单里出现了越来越多“不是 Token 的东西”,而且它们在不同任务里会突然变成大头。
于是成本的主角是谁,不取决于你选了哪个模型。
取决于你在跑什么样的任务。
锚点失效的第一征兆:价格页开始像“资源总账”
当你去看各家平台的价格页,会发现它们越来越不像“模型定价”。
更像“资源结算”。
Token 只是其中一列。
除此之外,还有:
- search / grounding:一次联网检索按次数收费
- cache:写入、命中、不同倍率
- runtime:会话跑了多久
- container:环境开了多久、多大
- seat:团队席位
- storage:检索存储按 GB/天
- outcome:按“完成件”收费
你很难再用一个统一公式把它们抹平。
更要命的是:这些收费项不是装饰。
它们会在某些任务里突然压倒 Token。
同样的 Token 数,账单能差一个数量级
想象两类最常见的企业任务。
第一类:轻量、高频、以检索为主的问答。
你让 AI 做的主要工作不是“推理”。
而是“找”。
这类任务里,Token 可能很少。
但 search/grounding 的次数很多。
于是账单的主角变成了“每次搜索多少钱”,而不是“每百万 Token 多少钱”。
第二类:推理密集、生成密集的任务。
比如代码、长文、复杂规划。
你让 AI 的主要工作是“想”。
这类任务里,Token 自然会回到主角位置。
工具调用可能有,但通常只是配角。
同样的“调用一次”,同样的“输入输出规模”,只要任务的主形态换了,成本结构就会换。
这就是锚点失效的本质:
单位没有统一了。
账单为什么会变成“多单位叠加”?因为你买的不是裸模型
企业实际购买的,越来越像“一段被组织过的智能劳动”。
裸模型只是其中的一小部分。
一旦进入真实工作流,你就会天然需要:
- 上下文驻留(否则每次都要重新喂)
- 缓存(否则重复问题重复付费)
- 搜索增强(否则回答不新鲜)
- 文件检索(否则它读不到你的材料)
- 长时运行(否则 agent 做不完)
- 观测与治理(否则你不敢上线)
这些东西是“系统成本”。
它们以前藏在工程团队的人力里。
今天被产品化,并进入账单。
于是你会看到一个很现实的局面:
你花钱买的,已经不是“智能”。
而是“智能如何在你的流程里可交付”。
关键不是“哪个模型更便宜”,而是“你的工作负载长什么样”
当计费单位从一维变成多维,比较方式也必须换。
过去你可以问:
哪个模型每百万 Token 更便宜?
现在你得问:
在我的工作负载下,哪一套组合的综合成本更低?
这句话听起来像废话。
但它会直接改变三件事。
第一个改变:Model Router 从“选模型”变成“选账单结构”
很多人把 router 理解成“性能/价格的自动平衡”。
但在多单位账单时代,它更像一个结算结构的开关。
你把检索密集任务路由到某个策略上,账单主角就是 search。
你把推理密集任务路由到另一个策略上,账单主角就是 token。
甚至同一个业务,只要把“先查再写”和“先写再查”的顺序改一下,
search 次数、cache 命中率、runtime 时长都可能完全不同。
router 变成了成本工程的一部分。
第二个改变:缓存策略不再是“优化”,而是“预算控制”
以前缓存是工程师的美德。
今天缓存是财务口径的一部分。
因为它直接决定:
- 你到底是在为“重复上下文”付费
- 还是在为“新增推理”付费
当 cache write / cache hit 进入价格表,
缓存命中率就不再只是性能指标。
它是账单指标。
第三个改变:Outcome pricing 会重新吸引企业
按结果定价的诱惑在于:它把预算从“过程”移到“完成件”。
你不需要解释:
这次用了多少 token,跑了多久 runtime,调用了多少 search。
你只需要对齐一件事:
什么算“完成”。
它听起来更像合同,而不是账单。
但这恰恰是很多企业真正想要的。
因为他们最终要管理的不是 token。
是交付。
结尾:Token 还在,但它不能单独解释这门生意
“每百万 Token 多少钱”仍然是一个有用的参考。
它不会消失。
它会变成底层电价。
但它不会再是你理解全部成本的那根绳子。
当账单被拆成 search、cache、runtime、seat、outcome 这些成本结构,
企业最终为哪一层买单,就会决定价值沉淀在哪一层。
成本的主角是谁,也不再是一个模型排行榜能决定的。
它取决于你在跑什么样的任务。
参考
- 36氪文章《Token计算:下一个十年的成本战争》:https://36kr.com/p/3774635621040899