就在昨天,Generalist AI 发布了 GEN-1:在此前平均成功率仅 64% 的任务上,将表现提升至 99%,速度约为之前 SOTA 的 3 倍,且每项任务仅需约 1 小时机器人数据
这条新闻的重量不在于“又一个机器人模型刷榜”,而在于它把机器人领域最顽固的那道墙——可靠性——第一次用一种近乎粗暴的方式撞穿了:从 64% 到 99%,从“能跑 demo”到“接近生产”,而代价看起来不像传统机器人那样要堆海量专用遥操作数据,反而更像语言模型那条老路:规模化训练 + 更通用的基座 + 更强的泛化。
如果这是真的,那么它意味着机器人正在靠近一个长期被反复预言、却迟迟未到的时刻:个人电脑时刻。
不是“某家公司做出了一台很酷的机器人”,而是“从此以后,更多人可以用更低的门槛,把机器人当成平台来拼装应用”。
机器人为什么一直没有“个人电脑时刻”
机器人行业的尴尬在于:它同时吃两种难。
- 像软件一样难:要有复杂系统的可观测、容错、迭代、部署。
- 像硬件一样难:要面对摩擦、变形、噪声、装配误差、长尾环境。
结果就是,机器人过去二十年里最常见的成功路径并不是“通用”,而是“专用”:选一个任务、控住环境、把流程做得足够干净,让机器人在一个被整理过的世界里成功。
这能做出很酷的 demo,但它很难给行业带来“平台效应”。因为每一个新任务都像新项目:重新收数据、重新调控制器、重新把世界规整一遍。
所谓“个人电脑时刻”,恰恰相反:它意味着底层能力变成标准件,上层创造力开始爆发。
GEN‑1 这类结果真正刺痛的是:我们对机器人数据的默认假设
机器人领域有一个根深蒂固的信条:要可靠,就得大量遥操作数据;要泛化,就得更大量数据;要做新任务,就得再来一轮收集。
而 GEN‑1 这种叙事在挑战它:每项任务只要约 1 小时机器人数据,就能把成功率推到 99%,速度还比此前 SOTA 快三倍。
这听起来像不可能,但它之所以可能,是因为机器人正在借用语言模型那套已经验证过的路径:
- 通用基座在更大范围数据上学习“世界的基本规律”
- 新任务不再从零开始,而是少量数据做适配
- 每一代模型解锁一批新任务,像 GPT‑2→GPT‑3 那样从“证明方向”到“逼近落地”
这背后其实是在说:机器人也存在 scaling law。你不需要为每个任务手工把知识写进系统,而是让知识被“训练出来”。
Physical Intelligence 的核心赌注:通用比专用更容易
如果把 Generalist 的结果当作“证据”,那么 Physical Intelligence(π)提供的是“世界观”:为什么通用路线长期反而更容易。
Sergey Levine 的观点可以压缩成一句话:
专用机器人像手工雕刻,通用机器人像规模化铸造。短期雕刻更快,长期铸造更强。
在语言领域,历史已经发生过一次:过去大家做专用翻译、专用情感分析、专用问答;后来通用语言模型用更广泛的数据与弱标注信息,学到更通用的世界知识,反而把专用方案整体替代掉。
机器人更极端。因为“理解世界”在机器人里不是锦上添花,而是生存条件:一个不会理解物理交互的系统,在开放世界里只能靠把环境收拾干净来活着。
通用的意义并不是“机器人会做很不普通的事”,而是相反:
机器人做的事情可能很普通,但它能在任何场景下都做到。
这句话如果你只看字面,会觉得平淡;但它其实是机器人从 demo 走向产品的唯一道路。
人形不是答案:形态是变量,物理智能必须对身体“不可知”
关于人形机器人,Levine 的态度很清楚:人形很酷,但它不是智能问题的本体。
从更底层看,“自动驾驶”“机械臂”“人形”并不是不同问题,它们只是同一类能力在不同载体上的表现。真正的基础模型应该对具体形态是 embodiment‑agnostic 的:它能接管任何身体,把工具当成身体延伸。
这个观点看似抽象,但它决定了数据策略:
如果你只押人形,你的数据会被形态锁死;如果你押“物理交互的通用规律”,你会更愿意汇聚跨任务、跨平台、跨形态的数据,训练一个可以迁移的基座。
这也解释了为什么通用路线在某些时候反而更“省数据”:因为你不是在学“洗碗”,你在学“抓取、接触、摩擦、因果、工具使用”这些可以复用的底层结构。
机器人基础模型的训练三段论:VLA 是把互联网知识导入物理世界的桥
PI 的技术叙事里,一个关键结构是 VLA(Vision‑Language‑Action):
- 文本数据:获得语言能力
- 互联网图像:获得视觉理解
- 机器人数据:把感知映射到动作
这三段训练有一个很现实的动机:机器人没有互联网规模的动作数据,但互联网提供了大量“世界知识”的廉价来源。多模态模型可以把这些知识带到机器人系统里,解决机器人最难的那部分:长尾与常识。
但这也带来新难题:知识怎么接入行动?你不能丢一张图片问“怎么办”,因为模型缺乏关键上下文:它不知道自己是什么机器人、不知道自身能力边界、不知道当前状态。
因此,真正的技术难点正在从“会不会动”转向“下一步该做什么”——也就是中间层推理(middle‑level reasoning)与任务状态表征。
数据飞轮的关键不是“先估算要多少数据”,而是尽快跨过冷启动门槛
Levine 在数据问题上有一个很务实的态度:没人知道“终极机器人数据集”要多大,但这不是关键。关键是让系统尽快具备实用能力进入真实世界,在运行中持续收集数据并改进。
因为一旦进入真实世界,你面对的会是另一种问题:不是数据不够,而是数据太多、太杂、需要被组织成能训练的形态。
这就是“个人电脑时刻”的另一层含义:当平台可用,数据才会像软件时代的日志与点击一样自然溢出;当数据开始溢出,模型与系统会进入更快的迭代周期。
风险与边界:99% 不是终点,真正的难点在“人是否愿意接受过渡期的不完美”
机器人落地的天花板不只来自技术,也来自社会与产品边界。
家庭场景之所以难,不是因为某个动作做不到,而是因为“几乎什么都可能发生”,机器人必须在绝大多数情况下给出人类可接受的行为。过渡期的不完美能不能被接受,取决于任务:酒店清扫、餐厅协作可能更早;照料婴儿、老人可能更晚。
这决定了一个现实的产品节奏:
- 先在边界清晰的场景积累数据与可靠性
- 再向更开放、更长尾的环境扩展
- 最后才是家庭这种“无限状态空间”
如果 GEN‑1 的叙事成立,那么它加速的是第一步:让“进入真实世界运行”更早发生,从而让数据飞轮更早转起来。
终极拷问:这是不是机器人领域的 GPT‑3 时刻?
GPT‑2 证明了方向,GPT‑3 把商业化可能性拉到面前。
GEN‑1 如果真的把 64% 推到 99%,并且以更少数据、更快速度实现,那么它在机器人领域扮演的角色,可能正是“把方向变成可用”的那一步。
而一旦机器人真的迎来“个人电脑时刻”,最先改变的不会是“出现一个统一形态的金属人”,而是:
机器人作为可组合平台的爆发:更多形态、更多任务、更多小团队的创造力被释放。