苹果发表新论文:《What do your logits know?》
苹果 AI 研究团队最近提交了一篇论文,标题叫:
What do your logits know? (The answer may surprise you!)
论文地址:https://arxiv.org/abs/2604.09885
标题里那个"答案可能会让你惊讶",不是谦虚。
先解释什么是 Logits
大模型在生成每一个词之前,会对词典里所有词汇打一个原始分。分最高的词,就是它输出的答案。这些原始分,就是 Logits。
大多数 API 在返回答案的同时,还会附带 top-k logits——排名靠前的几十个候选词及其得分分布。这被设计为一个工具,让开发者可以调整参数、理解模型的"置信度"。
苹果这篇论文问的是:这些概率数字,到底知道多少?
七个发现,一个比一个重
研究人员用视觉语言模型(VLM)做实验。他们给模型看一张图,提一个简单问题,比如"图里有蓝色圆柱体吗?"——只需要回答 Yes 或 No。然后他们用一个轻量级"探针"工具,试图从模型输出的不同层级反向推断图片里的信息。
结论:
模型的最终输出层,远没有完成应有的信息过滤。
具体说:
只要获取排名前 10-40 个的 Logits,探针就能高准确率预测出目标物体的颜色、形状、材质、大小——哪怕你只问了其中一个属性。
问了"有没有蓝色圆柱体",但模型把这个圆柱体是橡胶还是金属、是大是小,也一并带到了表层输出分布里。你没问,它记住了。
更惊人的是背景信息。图里有没有其他物体、它们是什么颜色、数量是多少——这些和你的问题完全无关的信息,也能从稍多一点的 top-k Logits 中被提取出来。
泄密的拐点大约在前 30-80 个 Logits,呈 U 型曲线——再多反而因为噪声干扰而衰减。也就是说,攻击者不需要完整的词表,只需要几十个头部候选词就够了。
最后一个发现最让人不安:过去想从大模型里提取内部信息,需要白盒权限,门槛极高。但这篇论文证明,在相同的观察维度下,通过 API 公开暴露的 top-k Logits,其信息泄露能力与需要高权限才能获取的深层日志轨迹几乎相当。
灰盒 API 的"天然安全屏障",是个幻觉。
真实的威胁是什么
想象一个场景:
用户上传一张家庭照,让模型判断"图里有没有戴眼镜的人"。模型返回"Yes",附带了 50 个 top-k logits 的得分分布。
服务端可以拿这 50 个数字,训练一个探针,推断出照片里其他人的体型、服装颜色、室内环境特征。
用户以为自己只做了一个是非题。模型其实把照片扫了个遍,并把结果藏在了那串概率数字里。
这篇论文还顺带解释了一个已知现象:大模型幻觉的部分来源,正是那些徘徊在高层 Logits 里的无关信息——在非贪婪解码的生成过程中,它们随时可能干扰最终输出,让模型说出偏离事实的话。
苹果为什么研究这个
库克时代,苹果把"隐私是基本人权"做成了一个持续十年的品牌主张。
现在库克即将卸任,接棒者 John Ternus 接手的是一个在 AI 时代还没有完全证明自己的苹果。
这篇论文,是苹果在 AI 底层安全领域的一个信号:它想把隐私保护从营销话语变成技术论文里可验证的承诺。
问题是:大模型架构本身就在输出层留着这个口子。怎么堵?论文给出了问题的清晰描述,但答案还没有。
参考:苹果新论文发出惊人一问:What do your logits know?,机器之心,2026-04-27