OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布研究预览:让 AI 不再像发微信一样等你说完才回,而是随时听、随时看、随时插嘴
Mira Murati 在 2023 年那 48 小时的 OpenAI CEO 风波之后,离开了她帮助塑造了六年的公司。
她创立的新公司叫 Thinking Machines Lab,上周发布了第一篇研究论文——关于一种叫"交互模型"(Interaction Model)的东西。
这不是又一个聊天机器人。
问题出在哪
所有现在的 AI——包括 GPT-4o、Gemini Live、Claude——都在做同一件事:等你说完,它再说。
这叫"轮次制"(turn-based)。
研究者称之为"协作瓶颈":你一旦把任务扔给 AI,你就被踢出了循环。即使你想插一句"等等,那个方向不对",也要等它把整段话讲完,才能轮到你。
这不是体验问题。这是架构问题。
把"轮次"从底层拆掉
TML 的 Interaction Model 以 200 毫秒为单位持续读取输入流——你说话的同时,它在听;你指着屏幕的同时,它在看。任何时刻都可以打断,任何时刻都可以被打断。
这不是软件层面的对话管理技巧,而是写进模型训练目标里的。
他们训练的不是"如何回答问题",而是"如何在对话中一直在场"。
两个模型,同时跑
架构上,TML 拆成两块:
Interaction Model 在前台,实时处理音视频流,负责听、看、插嘴、保持节奏。
Background Model 在后台,处理需要深度推理和工具调用的任务,把结果自然地织回正在进行的对话。
有点像人的大脑——意识在说话,但调取记忆、做计算的那部分在后台默默跑,不打断说话的节奏。
底层实现上,音频用 dMel 表示、图像按 40×40 patch 编码,所有模态不经过独立 encoder,直接融合进同一个 transformer,从头联合训练。
在所有人都接近零分的地方
TML 专门造了两个新 benchmark:TimeSpeak 和 CueSpeak,测的是模型能不能在"合适的时机"主动开口。
还有 RepCount-A、ProactiveVideoQA 和 Charades,测视觉主动性——模型看到某个画面时,能不能主动说点什么,而不是等你指给它。
他们的说法很直接:「所有现有模型在这些测试上的得分接近于零。」
TML-Interaction-Small 是一个 276B 参数的 MoE 架构,活跃参数 12B,轮次响应延迟 0.40 秒。FD-bench V1.5 对话质量综合评分 77.8,指令遵从(IFEval)89.7%。
安全不是事后贴上去的
实时连续对话有个特殊的安全挑战:越是拟人,越容易被诱导,而且风险在长会话中会累积。
TML 用 TTS 生成训练数据,专门强化"拒绝时与模态匹配"的能力,并针对多轮对话做自动化红队测试。
Harmbench 拒绝率:99%。
竞争在哪里
把这件事放到更大的背景里看:现在的 AI 竞争,正在从"谁更聪明"转向"谁更在场"。
推理能力大家都在追,跑分年年新高。但你真正用起来时,最让人抓狂的不是它不够聪明,而是它在错误时机说太多,或者你需要它的时候没反应。
TML 在赌的是,下一个代际的 AI 差异不在 benchmark,而在对话的质感。
Mira Murati 做了六年 GPT 系列。她应该知道那里还缺什么。