Ultra→Pro→Flash 的白盒蒸馏到底怎么做？

2026-03-21

AI 下半场的真正战争：把 Ultra 的“神性”蒸馏进 Flash，让推理与能耗一起变便宜

很多人只记住“Ultra/Flash 双轨策略”，却忽略了核心：Flash 之所以能成为线上隐形王者，不是因为它更小，而是因为它背后站着一个 Ultra 作为“知识与推理的母体”，不断把能力蒸馏下来。

下面我试着把最关键的技术问题讲清楚：Ultra→Pro→Flash 的白盒蒸馏到底怎么做？

为了便于讨论，我们把三层模型当作一个系统，而不是三款产品：

换句话说：Ultra 冲上限，是为了给 Flash 喂养；Flash 才是把智能变成现金流与规模化体验的那一层。

很多人理解蒸馏 = “老师做题、学生抄答案”。这叫黑盒蒸馏：老师只给最终输出。

白盒蒸馏的关键在于：老师不仅给最终答案，还给“答案是怎么来的”——也就是让学生学习老师的决策边界与推理结构。

在工程上，白盒信号大体可以分成几类（下面属于业界通用做法，我用“可能/通常”表述，不把它写成谷歌独家机密）：

分布信号（logits/soft targets） 不只是正确答案是什么，而是老师对各候选的置信分布、排序结构。价值：比硬标签更“细腻”，能教学生学到边界。
轨迹信号（trajectory） 包括：中间推理步骤、分解计划、工具调用顺序、检索与引用、错误更正路径。价值：学生学到“先做什么再做什么”，而不是只学到一句漂亮话。
自检信号（verification traces） 老师在生成过程中进行的自我验证：反例检查、单元测试式校验、交叉推导、二次审阅。价值：把“正确”从运气变成机制。
一致性信号（consensus） 对同一道题，多采样、多温度生成多个解，再通过一致性投票/评测器筛选。价值：把老师的强能力变成更可靠的训练样本。

你会发现：白盒蒸馏真正蒸馏的不是“内容”，而是“方法”。

下面这段是我认为最重要、也最容易被忽略的部分：蒸馏不是一次训练动作，而是一条持续循环的流水线。

做法通常不是“让 Ultra 生成一次答案就结束”，而是：

因为老师也会犯错，所以关键是筛选：

最后得到的是：高质量样本 + 高质量推理轨迹。

为什么要 Pro 这一层？因为从 Ultra 直接蒸馏到 Flash，跨度太大，信息会丢得厉害。

因此常见策略是：

Flash 的约束是：延迟、成本、吞吐。

所以核心不是让 Flash 学会写更长的思维链，而是让 Flash 学会：

这一步往往会混合几种训练范式：

上线后，Flash 会暴露“失败簇”（某类任务持续出错）。这些失败簇会回流到 Ultra/Pro，生成新的“针对性轨迹”，再蒸馏回 Flash。

这就是所谓的“母体喂养”：前沿能力不是放在展柜里，而是不断被压缩进可规模化的产品里。

访谈里最震撼的一组数字是：一次乘法也许只要 1 皮焦耳，但搬一次数据可能要 1000 皮焦耳。

这意味着：你以为你在和别人比“算力”，其实你在比“能耗预算如何花在刀刃上”。

蒸馏的意义在这里变得更现实：

最后的结论会非常工程化：谁把单位智能成本压得更低，谁就能把智能铺到更多产品、更深工作流。

如果说上半场的胜负看“谁能做出看起来最聪明的模型”，下半场的胜负看“谁能把聪明变成便宜、稳定、可复制的生产力”。

Ultra 的价值，不在于它有多强；而在于它是否能成为一个持续供给的母体。 Flash 的价值，不在于它有多小；而在于它是否能成为一个海量调用的载体。

当蒸馏、软硬协同、推理廉价化三者咬合起来，AI 才会从“昂贵的演示品”变成“普惠的基础设施”。

你确认“可以发布”我就用 blog-publish 发到博客，并回公网链接。