实测腾讯新产品 Marvis
腾讯 PCG 的应用宝团队 5 月 20 日推出了 Marvis,定位「操作系统层级 AI 助手」。1 个主调度 Agent + 5 个子 Agent,分别负责文件、系统操作、应用操控、浏览器、搜索。每天 1000 万免费 Token,支持 Windows/Mac/Android。
「OS 级」是个很大的词。这轮实测想搞清楚:每个子 Agent 底层在用什么技术,能力边界在哪,跟 Claude Code 这类通用 Agent 相比有没有真正的差异。
Computer Agent:有工具就丝滑,没工具就退化
两个任务。
第一个:调快触控板跟踪速度。这是导航栏里的示例任务,Computer Agent 调用了预建 MCP 工具 mcp_mactools_input_device,一步完成,不到 3 秒,最后还弹出确认 UI,不会贸然改动。
第二个:关闭今天没有活跃过的应用程序。没有对应预建工具,Agent 开始在 shell 里探索:先试 find -newer,不行;试 lsappinfo,犹豫;想用 sfltool,放弃;最终用 mdls 查 kMDItemLastUsedDate 找到了路径。
打开工作日志,全是标准的 macOS CLI 工具。通用 Agent 在终端里跑同样命令,能做完全一样的事。
结论很清楚:Computer Agent 的可靠性完全取决于预建 MCP 工具的覆盖面。有工具,丝滑;没工具,退化为 LLM 临场写 shell 脚本。
App Agent:撞上了 macOS 的安全墙
任务:用 Apple Music 播放巴赫 Top Songs 里排名第一的歌曲。
执行链路:App Agent 加载 mac-desktop-ops skill → 获取 bundle ID → 启动 Apple Music → 尝试读 UI 结构(失败)→ 尝试截屏(失败)→ 放弃,转给 Computer Agent。
Computer Agent 接手后改走 AppleScript,能打开搜索、输入"Bach",但无法点击 Bach 的艺人按钮,导航到在线目录里的搜索结果。Apple Music 的 scripting 字典只支持操作本地曲库,不支持浏览在线目录。
dump_ui 失败的原因:Apple Music 对第三方 Accessibility 访问支持有限。capture window 失败的原因:DRM 内容保护主动屏蔽截屏。
用 Claude Code 做了对照测试,同样卡在 System Events 的键盘注入被 macOS 拒绝。
两个产品撞的是同一面墙:macOS 的 TCC 安全机制。这套机制的设计意图就是阻止第三方程序自动操控其他 app 的 GUI。Marvis 自称「OS 级」,在 macOS 看来它就是一个普通的第三方 app。
作为对照,Calendar 和 Reminders 的任务顺利完成了——因为这两个 app 有完善的 AppleScript 字典,主动暴露了创建事件的接口。
Marvis 能做什么,最终由目标 app 决定,不由 Marvis 决定。
Browser Agent:技术路径最成熟
任务:查 12306 上 6 月 1 日北京到上海最早的高铁。
Browser Agent 打开可视化的 Chromium 窗口,通过 Chrome DevTools Protocol 操控 DOM,用 JavaScript 检查表单值、设置车站代码、点击按钮,成功返回结果。
这是 Marvis 所有子 Agent 里技术最成熟的,原因简单:浏览器本身就提供了结构化的程序接口,Playwright/CDP 是业界验证多年的生态。
Claude Code 配合 Chrome DevTools MCP server 做同样的任务,操作方式完全相同。Marvis 的差异化在于:用户不需要自己安装 Playwright 或配置 MCP,开口就能用。
多 Agent 调度:这是真正的产品价值
测试了两个需要跨 Agent 协作的任务。
任务一:搜索 6 月 1 日北京天气,整理成 markdown 保存到桌面,并在日历里创建当天「带伞」提醒。Marvis 先让 Search Agent 查天气,拿到结果后并行派发 File Agent 写文档、Computer Agent 创日历事件,两个后续任务同时开始执行,约 10 秒完成。
任务二:去京东搜 AirPods Pro,整理前 3 个结果的名称和价格为 Excel,再设置明天比价提醒。遇到京东登录墙时弹出清晰选项卡让用户协助,用户提交后 Agent 进程没有中断,正常执行完毕。
依赖识别是对的,并行调度也确实在跑。更关键的是,用户只说一句自然语言目标,Marvis 全程接管任务拆解、依赖分析、分配调度,不需要用户描述执行顺序。
从「用户编排任务」变成「用户只描述目标」,这是产品层面真实的进步。
Marvis 是什么,不是什么
实测下来,Marvis 的底层技术汇总没有超出已知范畴:预配置的 MCP 工具 + AppleScript/CDP + 多 Agent 路由 + 精心设计的 UI。
但它组合得好。零配置、说人话操控电脑、不需要知道 AppleScript 语法或安装 Playwright——这对普通用户的价值是真实的。
「Agent OS」这个词则是另一回事。
如果 Agent 时代有一个真正的 OS,它管理的对象应该是:有状态机的任务(可暂停、恢复、回滚)、跨 app 的上下文和工作记忆、按任务临时授权(任务结束即收回),以及把 app 从前台入口变成后台能力提供者。
Marvis 做到了任务拆解和调度这一层,没有做到任务状态管理,没有做到按任务授权,也没有改变 app 的能力暴露方式——它仍然在 hack 现有 app 的 GUI,而不是让 app 主动暴露接口。
更根本的是:Marvis 跑在 macOS/Windows 上面,是 OS 的用户,受 OS 的权限限制。
能做出真正 Agent OS 的角色,大概只有几类:拥有操作系统的平台方(Apple、Google、Microsoft)、从头做新硬件的人、在内核层重新设计 Agent 接口的人,或者像微信这样本身已经是类 OS 存在的超级应用。
Marvis 是个好产品,但它的边界不在「OS」,在「零门槛的桌面 Agent 聚合器」。