何恺明团队的这篇新论文提出的模型叫做ELF（Embedded Language Flows，嵌入式语言流），核心思路只有一句话：把扩散过程搬进连续的向量空间，只在最后一步才把结果翻译成词

2026-05-13

何恺明离开 Meta 去 MIT 之后，第一篇引发关注的语言方向论文出来了。

模型叫 ELF，Embedded Language Flows，嵌入式语言流。

核心思路只有一句话：把扩散过程搬进连续的向量空间，只在最后一步才把结果翻译成词。

之前的扩散语言模型做错了什么

扩散模型用在图像上很自然，因为像素本来就是连续的。

搬到语言上，第一个障碍是：词是离散的。研究者通常的做法是直接在 token 上做扩散——加噪声、去噪声，全程操作的都是词表里的离散符号。

这条路走得很别扭。离散空间没有平滑的梯度，噪声和信号的边界也不清晰。结果是：扩散语言模型的生成质量一直追不上自回归。

ELF 的判断是：问题不出在扩散本身，出在抽象层选错了。

词不适合做扩散，但词的向量表示可以。

ELF 的三步是：

扩散过程从头到尾没有碰过离散 token，只有最后一步翻译。

这不是工程技巧，而是一个认知上的重新定位：语言生成的合理操作空间不是 token 序列，而是 token 背后的语义流形。

实验结果里最值得关注的一个数：

同类竞争方法（MDLM、Duo、FLM）每个都用了大约 5 万亿 token 训练。ELF 只用了 4500 亿——大约是它们的十分之一。

WMT14 英法翻译，ELF 的 BLEU 分是 26.4。自回归基线是 25.2。其他扩散方法更低。

用十分之一的数据，超过了自回归，也超过了所有同类扩散模型。

困惑度（perplexity）在 320 步采样时达到 24，参数规模从 1 亿到 6.5 亿一致改善——没有出现某个尺度下崩掉的情况。

ELF 还有一个结构上的设计值得注意。

通常"去噪"和"解码"是两件事，要么用两个网络，要么分开处理。ELF 用一个网络，通过不同的 mode token 区分任务：训练时 80% 的时间做去噪，20% 的时间做解码。推理时用 classifier-free guidance，不需要额外开销。

这个设计的价值在于：解码步骤不是事后加上去的补丁，而是从一开始就和生成过程一体训练的。

扩散语言模型的故事一直没讲完，不是因为扩散不够好，而是因为在 token 上做扩散本来就走错了方向。

ELF 证明的事情是：当你在语义向量空间里做平滑的连续流动，用的是模型已经理解的表示层，不强迫它在离散符号上绕弯子——生成质量和训练效率可以同时改善。

这是一个值得被严肃对待的信号，不只是因为结果好，而是因为它来自一个对"正确抽象层"有深刻直觉的团队。

何恺明在视觉领域的贡献，很大程度上也是在找正确的抽象。ResNet 的残差连接、MAE 的掩码自编码，本质都是：找到一个问题真正应该在哪个空间里被解决，然后在那个空间里做最简单的事。

ELF 的逻辑是一样的。