Ultra→Pro→Flash 的白盒蒸馏到底怎么做?
AI 下半场的真正战争:把 Ultra 的“神性”蒸馏进 Flash,让推理与能耗一起变便宜
很多人只记住“Ultra/Flash 双轨策略”,却忽略了核心:Flash 之所以能成为线上隐形王者,不是因为它更小,而是因为它背后站着一个 Ultra 作为“知识与推理的母体”,不断把能力蒸馏下来。
下面我试着把最关键的技术问题讲清楚:Ultra→Pro→Flash 的白盒蒸馏到底怎么做?
1. 先把三层模型的分工说透:Ultra / Pro / Flash 各自“负责什么”
为了便于讨论,我们把三层模型当作一个系统,而不是三款产品:
Ultra:突破上限的“母体” 负责:高难度推理、复杂规划、长链路自我验证。 价值:不是上线服务本身,而是生成高质量的“可教学信号”。
Pro:成本与能力的折中层 负责:更多通用任务的稳定交付。 价值:既能承接线上,又能在蒸馏链路里作为中间台阶(把 Ultra 的能力先压缩一遍)。
Flash:低延迟、低成本的线上主力 负责:吞吐量、成本、体验。 价值:真正进入 Gmail/YouTube/搜索等海量调用场景的“隐形王者”。
换句话说:Ultra 冲上限,是为了给 Flash 喂养;Flash 才是把智能变成现金流与规模化体验的那一层。
2. “白盒蒸馏”到底白在哪里:不是只抄答案,而是抄过程信号
很多人理解蒸馏 = “老师做题、学生抄答案”。这叫黑盒蒸馏:老师只给最终输出。
白盒蒸馏的关键在于:老师不仅给最终答案,还给“答案是怎么来的”——也就是让学生学习老师的决策边界与推理结构。
在工程上,白盒信号大体可以分成几类(下面属于业界通用做法,我用“可能/通常”表述,不把它写成谷歌独家机密):
分布信号(logits/soft targets) 不只是正确答案是什么,而是老师对各候选的置信分布、排序结构。 价值:比硬标签更“细腻”,能教学生学到边界。
轨迹信号(trajectory) 包括:中间推理步骤、分解计划、工具调用顺序、检索与引用、错误更正路径。 价值:学生学到“先做什么再做什么”,而不是只学到一句漂亮话。
自检信号(verification traces) 老师在生成过程中进行的自我验证:反例检查、单元测试式校验、交叉推导、二次审阅。 价值:把“正确”从运气变成机制。
一致性信号(consensus) 对同一道题,多采样、多温度生成多个解,再通过一致性投票/评测器筛选。 价值:把老师的强能力变成更可靠的训练样本。
你会发现:白盒蒸馏真正蒸馏的不是“内容”,而是“方法”。
3. Ultra→Pro→Flash 的蒸馏流水线:一条能跑通的工程闭环
下面这段是我认为最重要、也最容易被忽略的部分:蒸馏不是一次训练动作,而是一条持续循环的流水线。
第一步:用 Ultra 生成“可教的高质量样本池”
做法通常不是“让 Ultra 生成一次答案就结束”,而是:
- 同一任务多次生成(多温度/多采样)
- 鼓励 Ultra 展开更长的推理与验证(这也是“10,000 token/s”的意义之一:让老师能负担得起长推理,产出更强的过程信号)
- 让 Ultra 输出结构化轨迹:计划→执行→验证→结论(而不是一口气吐结果)
第二步:筛选与打分——把“可教的轨迹”挑出来
因为老师也会犯错,所以关键是筛选:
- 自动评测器(规则、单测、检索一致性、数学验证等)
- 一致性投票(多个答案的共识度)
- 质量打分(可读性、格式、引用、可执行性)
最后得到的是:高质量样本 + 高质量推理轨迹。
第三步:Ultra→Pro:先压缩一层(能力/成本的第一轮折中)
为什么要 Pro 这一层?因为从 Ultra 直接蒸馏到 Flash,跨度太大,信息会丢得厉害。
因此常见策略是:
- Pro 先学 Ultra 的“方法与边界”(更接近老师)
- 再让 Flash 学 Pro 的“稳定可用版本”(更接近线上成本约束)
第四步:Pro→Flash:让 Flash 学会“短推理但正确”
Flash 的约束是:延迟、成本、吞吐。
所以核心不是让 Flash 学会写更长的思维链,而是让 Flash 学会:
- 在更短的推理预算下仍然正确
- 在必要时调用外部工具/检索/验证器,而不是把所有推理都塞进 token 里
这一步往往会混合几种训练范式:
- 监督学习(学输出格式与轨迹)
- 偏好优化(让 Flash 更像老师的选择)
- 过程蒸馏(把长推理压缩成短决策)
第五步:上线反馈回流——失败簇驱动下一轮蒸馏
上线后,Flash 会暴露“失败簇”(某类任务持续出错)。 这些失败簇会回流到 Ultra/Pro,生成新的“针对性轨迹”,再蒸馏回 Flash。
这就是所谓的“母体喂养”:前沿能力不是放在展柜里,而是不断被压缩进可规模化的产品里。
4. 为什么蒸馏必须和硬件协同一起讲:因为数据搬运比计算贵
访谈里最震撼的一组数字是: 一次乘法也许只要 1 皮焦耳,但搬一次数据可能要 1000 皮焦耳。
这意味着: 你以为你在和别人比“算力”,其实你在比“能耗预算如何花在刀刃上”。
蒸馏的意义在这里变得更现实:
- Ultra 的昂贵推理可以发生在更稀缺的场景(母体生成训练信号)
- Flash 的便宜推理才承载海量调用(线上吞吐)
- 硬件与系统优化要围绕“少搬数据、少走冤枉路”来设计
最后的结论会非常工程化:谁把单位智能成本压得更低,谁就能把智能铺到更多产品、更深工作流。
5. 终局判断:推理必须像电力一样便宜
如果说上半场的胜负看“谁能做出看起来最聪明的模型”, 下半场的胜负看“谁能把聪明变成便宜、稳定、可复制的生产力”。
Ultra 的价值,不在于它有多强;而在于它是否能成为一个持续供给的母体。 Flash 的价值,不在于它有多小;而在于它是否能成为一个海量调用的载体。
当蒸馏、软硬协同、推理廉价化三者咬合起来,AI 才会从“昂贵的演示品”变成“普惠的基础设施”。
你确认“可以发布”我就用 blog-publish 发到博客,并回公网链接。