苹果发表新论文：《What do your logits know?》

2026-04-27

苹果 AI 研究团队最近提交了一篇论文，标题叫：

What do your logits know? (The answer may surprise you!)

论文地址：https://arxiv.org/abs/2604.09885

标题里那个"答案可能会让你惊讶"，不是谦虚。

先解释什么是 Logits

大模型在生成每一个词之前，会对词典里所有词汇打一个原始分。分最高的词，就是它输出的答案。这些原始分，就是 Logits。

大多数 API 在返回答案的同时，还会附带 top-k logits——排名靠前的几十个候选词及其得分分布。这被设计为一个工具，让开发者可以调整参数、理解模型的"置信度"。

苹果这篇论文问的是：这些概率数字，到底知道多少？

研究人员用视觉语言模型（VLM）做实验。他们给模型看一张图，提一个简单问题，比如"图里有蓝色圆柱体吗？"——只需要回答 Yes 或 No。然后他们用一个轻量级"探针"工具，试图从模型输出的不同层级反向推断图片里的信息。

结论：

模型的最终输出层，远没有完成应有的信息过滤。

具体说：

只要获取排名前 10-40 个的 Logits，探针就能高准确率预测出目标物体的颜色、形状、材质、大小——哪怕你只问了其中一个属性。

问了"有没有蓝色圆柱体"，但模型把这个圆柱体是橡胶还是金属、是大是小，也一并带到了表层输出分布里。你没问，它记住了。

更惊人的是背景信息。图里有没有其他物体、它们是什么颜色、数量是多少——这些和你的问题完全无关的信息，也能从稍多一点的 top-k Logits 中被提取出来。

泄密的拐点大约在前 30-80 个 Logits，呈 U 型曲线——再多反而因为噪声干扰而衰减。也就是说，攻击者不需要完整的词表，只需要几十个头部候选词就够了。

最后一个发现最让人不安：过去想从大模型里提取内部信息，需要白盒权限，门槛极高。但这篇论文证明，在相同的观察维度下，通过 API 公开暴露的 top-k Logits，其信息泄露能力与需要高权限才能获取的深层日志轨迹几乎相当。

灰盒 API 的"天然安全屏障"，是个幻觉。

想象一个场景：

用户上传一张家庭照，让模型判断"图里有没有戴眼镜的人"。模型返回"Yes"，附带了 50 个 top-k logits 的得分分布。

服务端可以拿这 50 个数字，训练一个探针，推断出照片里其他人的体型、服装颜色、室内环境特征。

用户以为自己只做了一个是非题。模型其实把照片扫了个遍，并把结果藏在了那串概率数字里。

这篇论文还顺带解释了一个已知现象：大模型幻觉的部分来源，正是那些徘徊在高层 Logits 里的无关信息——在非贪婪解码的生成过程中，它们随时可能干扰最终输出，让模型说出偏离事实的话。

库克时代，苹果把"隐私是基本人权"做成了一个持续十年的品牌主张。

现在库克即将卸任，接棒者 John Ternus 接手的是一个在 AI 时代还没有完全证明自己的苹果。

这篇论文，是苹果在 AI 底层安全领域的一个信号：它想把隐私保护从营销话语变成技术论文里可验证的承诺。

问题是：大模型架构本身就在输出层留着这个口子。怎么堵？论文给出了问题的清晰描述，但答案还没有。