OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布研究预览：让 AI 不再像发微信一样等你说完才回，而是随时听、随时看、随时插嘴

2026-05-12

Mira Murati 在 2023 年那 48 小时的 OpenAI CEO 风波之后，离开了她帮助塑造了六年的公司。

她创立的新公司叫 Thinking Machines Lab，上周发布了第一篇研究论文——关于一种叫"交互模型"（Interaction Model）的东西。

这不是又一个聊天机器人。

问题出在哪

所有现在的 AI——包括 GPT-4o、Gemini Live、Claude——都在做同一件事：等你说完，它再说。

这叫"轮次制"（turn-based）。

研究者称之为"协作瓶颈"：你一旦把任务扔给 AI，你就被踢出了循环。即使你想插一句"等等，那个方向不对"，也要等它把整段话讲完，才能轮到你。

这不是体验问题。这是架构问题。

TML 的 Interaction Model 以 200 毫秒为单位持续读取输入流——你说话的同时，它在听；你指着屏幕的同时，它在看。任何时刻都可以打断，任何时刻都可以被打断。

这不是软件层面的对话管理技巧，而是写进模型训练目标里的。

他们训练的不是"如何回答问题"，而是"如何在对话中一直在场"。

架构上，TML 拆成两块：

Interaction Model 在前台，实时处理音视频流，负责听、看、插嘴、保持节奏。

Background Model 在后台，处理需要深度推理和工具调用的任务，把结果自然地织回正在进行的对话。

有点像人的大脑——意识在说话，但调取记忆、做计算的那部分在后台默默跑，不打断说话的节奏。

底层实现上，音频用 dMel 表示、图像按 40×40 patch 编码，所有模态不经过独立 encoder，直接融合进同一个 transformer，从头联合训练。

TML 专门造了两个新 benchmark：TimeSpeak 和 CueSpeak，测的是模型能不能在"合适的时机"主动开口。

还有 RepCount-A、ProactiveVideoQA 和 Charades，测视觉主动性——模型看到某个画面时，能不能主动说点什么，而不是等你指给它。

他们的说法很直接：「所有现有模型在这些测试上的得分接近于零。」

TML-Interaction-Small 是一个 276B 参数的 MoE 架构，活跃参数 12B，轮次响应延迟 0.40 秒。FD-bench V1.5 对话质量综合评分 77.8，指令遵从（IFEval）89.7%。

实时连续对话有个特殊的安全挑战：越是拟人，越容易被诱导，而且风险在长会话中会累积。

TML 用 TTS 生成训练数据，专门强化"拒绝时与模态匹配"的能力，并针对多轮对话做自动化红队测试。

Harmbench 拒绝率：99%。

把这件事放到更大的背景里看：现在的 AI 竞争，正在从"谁更聪明"转向"谁更在场"。

推理能力大家都在追，跑分年年新高。但你真正用起来时，最让人抓狂的不是它不够聪明，而是它在错误时机说太多，或者你需要它的时候没反应。

TML 在赌的是，下一个代际的 AI 差异不在 benchmark，而在对话的质感。

Mira Murati 做了六年 GPT 系列。她应该知道那里还缺什么。