何恺明团队的这篇新论文提出的模型叫做ELF(Embedded Language Flows,嵌入式语言流),核心思路只有一句话:把扩散过程搬进连续的向量空间,只在最后一步才把结果翻译成词
何恺明离开 Meta 去 MIT 之后,第一篇引发关注的语言方向论文出来了。
模型叫 ELF,Embedded Language Flows,嵌入式语言流。
核心思路只有一句话:把扩散过程搬进连续的向量空间,只在最后一步才把结果翻译成词。
之前的扩散语言模型做错了什么
扩散模型用在图像上很自然,因为像素本来就是连续的。
搬到语言上,第一个障碍是:词是离散的。研究者通常的做法是直接在 token 上做扩散——加噪声、去噪声,全程操作的都是词表里的离散符号。
这条路走得很别扭。离散空间没有平滑的梯度,噪声和信号的边界也不清晰。结果是:扩散语言模型的生成质量一直追不上自回归。
ELF 的判断是:问题不出在扩散本身,出在抽象层选错了。
换一个操作空间
词不适合做扩散,但词的向量表示可以。
ELF 的三步是:
- 先把每个词编码成高维连续向量
- 扩散和去噪全程在向量空间里进行——加高斯噪声,再用 Flow Matching 技术把噪声还原
- 只在最后一步,把向量解码回词表
扩散过程从头到尾没有碰过离散 token,只有最后一步翻译。
这不是工程技巧,而是一个认知上的重新定位:语言生成的合理操作空间不是 token 序列,而是 token 背后的语义流形。
数字说话
实验结果里最值得关注的一个数:
同类竞争方法(MDLM、Duo、FLM)每个都用了大约 5 万亿 token 训练。ELF 只用了 4500 亿——大约是它们的十分之一。
WMT14 英法翻译,ELF 的 BLEU 分是 26.4。自回归基线是 25.2。其他扩散方法更低。
用十分之一的数据,超过了自回归,也超过了所有同类扩散模型。
困惑度(perplexity)在 320 步采样时达到 24,参数规模从 1 亿到 6.5 亿一致改善——没有出现某个尺度下崩掉的情况。
一个网络做两件事
ELF 还有一个结构上的设计值得注意。
通常"去噪"和"解码"是两件事,要么用两个网络,要么分开处理。ELF 用一个网络,通过不同的 mode token 区分任务:训练时 80% 的时间做去噪,20% 的时间做解码。推理时用 classifier-free guidance,不需要额外开销。
这个设计的价值在于:解码步骤不是事后加上去的补丁,而是从一开始就和生成过程一体训练的。
这件事的真正含义
扩散语言模型的故事一直没讲完,不是因为扩散不够好,而是因为在 token 上做扩散本来就走错了方向。
ELF 证明的事情是:当你在语义向量空间里做平滑的连续流动,用的是模型已经理解的表示层,不强迫它在离散符号上绕弯子——生成质量和训练效率可以同时改善。
这是一个值得被严肃对待的信号,不只是因为结果好,而是因为它来自一个对"正确抽象层"有深刻直觉的团队。
何恺明在视觉领域的贡献,很大程度上也是在找正确的抽象。ResNet 的残差连接、MAE 的掩码自编码,本质都是:找到一个问题真正应该在哪个空间里被解决,然后在那个空间里做最简单的事。
ELF 的逻辑是一样的。