当Token消耗从对话层迁移到执行层,Agent开始代替人操作应用,这些任务是在云端计费还是在端侧本地完成?这个问题的答案,会决定Token的消耗结构,进而影响MaaS业务的收入模型
Token 的故事,过去两年看起来很简单。
你说一句话。
模型回你一段话。
于是 Token 的消耗,被理解为“对话成本”。
但真正的变化,正在发生在另一个地方。
Token 正从对话层,迁移到执行层。
对话层的 Token,像客服
对话层消耗的 Token,主要解决两件事:
- 理解你的问题
- 组织一段回答
它的产物是文本。
文本很好计费。
输入多少 token,输出多少 token,一目了然。
这也是 MaaS(Model as a Service)过去最自然的商业形态:按 token 售卖智力。
执行层的 Token,像“替你干活的手”
当 Agent 开始替人操作应用,Token 不再只是“回答”。
它会变成:
- 读屏幕
- 找按钮
- 点进去
- 填表
- 切换页面
- 处理异常
- 重试
- 直到完成
这时 Token 的消耗结构会发生质变。
因为真正贵的不是那句“我帮你订票”。
而是订票过程中那一连串步骤。
执行链路越长,Token 越像燃料。
问题不在“会不会贵”,而在“贵的钱流向谁”
当执行层成为主战场,就出现一个决定性的分叉:
这些任务是在云端完成?
还是在端侧本地完成?
这不是工程细节。
这是收入模型。
云端执行:计费天然顺滑,但边际成本永远在
云端执行的好处很明显:
- 模型更强
- 工具更多
- 升级更快
- 统一可控
更重要的是:计费顺滑。
只要任务在云端跑,token 就天然可计量。
对 MaaS 来说,这是最舒服的形态:
- 每一次“替你干活”,都是一次可计费事件
- 用户越依赖 Agent,云端 token 越增长
但问题也同样明显:
- 高频小任务会把成本放大
- 缓存命中率、推理深度、峰值定价都会把账单变得不稳定
- 企业会开始把“token 管控”当成一门新的 FinOps
当用户开始问“我这个月为什么多花了 30%”,MaaS 就不再是“卖水”,而更像“卖电”。
而卖电最难的不是发电。
是解释电费。
端侧执行:边际成本趋近于零,但商业闭环会断
端侧执行的价值主张是反过来的:
- 一次性部署
- 本地推理
- 频繁触发的边际成本趋近于零
对用户而言,这是“爽”。
因为高频任务越多,端侧越划算。
但对 MaaS 而言,这就危险了。
因为你会发现:
最容易规模化的 token 消耗,被挪走了。
原本云端按 token 计费的高频任务,如果在本地完成:
- 云端 token 变少
- 收入变少
- 甚至连数据回流都变少
端侧能力越强,云端的角色越像“兜底”。
而兜底,很难成为一个高倍数的收入故事。
混合架构会成为默认,但“计费权”依然要争
现实世界大概率不是非此即彼。
而是混合:
- 端侧做高频、轻量、即时
- 云端做复杂、重型、长链路
可是一旦混合,新的问题就来了:
哪些任务算“云端计费”?哪些任务算“端侧免费”?
用户在意体验。
厂商在意计费权。
当入口在硬件上,执行在端侧,云端 MaaS 的增长就不再由“模型能力”决定。
而由“还有多少任务必须上云”决定。
这会逼着 MaaS 厂商把产品从“卖模型”推进到“卖系统”。
MaaS 的下一轮,不是更便宜的 token,而是更可控的执行
当 Token 从对话层迁移到执行层,真正的竞争点会变成三件事:
- 谁定义任务
对话是主观的。
执行是可审计的。
谁能把企业的真实流程抽象成可执行动作库,谁就握住了执行层的入口。
- 谁控制成本结构
云端的成本来自算力、缓存、峰值、深推理。
端侧的成本来自芯片、内存、电量、隐私和更新。
成本结构不同,定价方式就不同。
- 谁掌握计费权
对话层按 token 计费,是“按字计费”。
执行层更像“按结果计费”。
当用户只想要“办成事”,token 会被迫退到后台。
而后台计费,必须回答一个问题:
- 你到底是在卖 token
- 还是在卖完成任务的能力
结尾
“Token 是未来数字世界的大宗商品”这句话,也许没有错。
但大宗商品的价值,不取决于它被生产出来。
而取决于它被消耗在哪里。
当 token 的消耗从对话迁移到执行,Agent 开始替人操作应用。
云端计费还是端侧本地完成,答案会决定:
- token 的消耗结构
- MaaS 的收入结构
- 以及平台公司下一轮的权力结构
这不是一个技术选择。
这是一次重新分配。
参考
- 36kr: 《入口在手,Token我有,豆包千问卡位Agent“开机键”》 https://36kr.com/p/3776485018059271