具身智能的大赛,真正比的不是机械臂,是数据与泛化
这两年,具身智能的讨论越来越像一场“看起来很强”的比赛:视频里机械臂行云流水,Demo 里任务闭环完整,发布会一句“端到端”就能把观众的心率拉高。
但你只要把镜头稍微往旁边挪一点,就会看到另一个现实:具身智能真正的难题,往往不在机械臂,也不在某个网络结构,而在“数据如何形成”“评测如何成立”“系统如何在随机环境里不崩”。
我越来越相信一件事:具身智能的竞争,很快会从“模型参数与算力”转向“数据与泛化”。也就是说,真正决定谁能落地的,不是你能把一个动作做得多漂亮,而是你能不能在不断变化的物理世界里,维持稳定的成功率。
1. 物理世界的敌人叫“随机性”
软件世界里,我们习惯了可控:接口稳定、输入结构化、环境变量有限。你把一个 agent 放进 CRM 或工单系统,最难的是流程与权限;但一旦上线,世界不会每天换一套桌面颜色。
物理世界完全反过来。哪怕只是“把线插进接口”这种看似简单的任务,随机性会从四面八方涌进来:
- 光照变化导致视觉误差
- 物体位置偏移造成抓取失败
- 柔性物体不可预测(线缆、布料、塑料袋)
- 摩擦系数、表面反光、遮挡、背景杂物
- 传感器漂移、标定误差、机械结构微小回弹
这就是具身智能里最残酷的一句话:你不是在解决一个任务,你是在对抗一个世界。
所以,单场景的视频 Demo 很容易“看起来像通用智能”,但它往往只是把随机性按在地上捂住了嘴。
2. 为什么我越来越看重“AB 两套榜单”
一个成熟的技术领域,必须回答两个问题:
- 我能不能把这个题做对?
- 我能不能在别人随手改动条件后依然做对?
前者是能力,后者才是泛化。
如果你把评测设计成“固定位置、固定光照、固定道具”,那几乎必然会得到“刷榜工程学”:
- 数据只覆盖最常见的角度
- 策略只对某个摆放方式优化
- 失败案例被认为是“异常输入”而不是“真实世界”
这类系统在实验室里会越来越稳,在真实场景里会越来越脆。
我更喜欢把评测拆成两层:
- A:可控环境下的稳定复现(让参赛者快速收敛,摸清任务边界)
- B:随机环境下的鲁棒成功率(逼迫系统真正学会“应对变化”)
这不是形式主义,而是一种工程诚实:把“是否通用”从口号变成可测量的指标。
3. 具身智能的三件“基础设施”,比你想的更像软件工程
很多人谈具身智能,会把重点放在“模型够不够大”。但当你进入真实开发,会发现决定进度的常常是三件事:
3.1 数据基础设施:采、洗、标、回放、复现
具身智能的数据不是一堆图片,而是一段段发生在时间轴上的互动:视觉、力觉、位姿、指令、失败恢复、环境变化。
你需要的是一套“可复现的物理数据管线”:
- 能快速采集多样化场景
- 能把失败样本保留并再现
- 能把一次训练的改动与成功率变化对应起来
没有这套东西,所谓“端到端”会变成“端到端地撞墙”。
3.2 训练与评测基础设施:把成功率当成产品指标
具身智能最后交付的不是一个漂亮的 loss 曲线,而是一个朴素到近乎无聊的指标:
- 在随机条件下,完成任务的成功率是多少?
- 失败后是否能恢复?恢复成本是什么?
- 换一个桌子、换一种光照、换一种摆放方式,下降多少?
当你把这些问题写进评测框架,团队的研发习惯会被迫改变:不再迷信单点突破,而开始重视“分布外”的系统性补强。
3.3 系统工程:别把机器人当成一个模型
一个能在物理世界长期稳定工作的机器人,更像一个“多模块协作的产品”:
- 感知模块不稳定时,策略如何降级
- 动作执行偏差时,如何闭环纠错
- 语言指令模糊时,如何澄清或保守执行
- 多步任务时,如何规划与回退
这听起来很像软件工程里做 SRE:你关注的是“平均看起来不错”还是“尾部失败可控”。
4. 具身智能的落地路径:越早进真实世界越好,但要带着正确的游戏规则
我同意“越早进真实世界越好”。
不是因为真实世界更浪漫,而是因为它会给你提供最诚实的反馈:你到底有没有解决泛化,还是只是在某个摄影棚里把概率堆高。
但“早进真实世界”必须配套一套正确的游戏规则:
- 用随机化评测抵抗摆拍
- 用失败样本驱动数据闭环
- 用系统鲁棒性而非单次成功作为目标
具身智能的真正门槛,最终不是“做出一次成功”,而是“做出一千次成功,且你说得清楚为什么”。
结语:具身智能的下一波竞争,是“工程文明”
如果说上一波 AI 的竞争,更多是“谁有更好的模型与更大的算力”;那具身智能的竞争,会更像“谁的工程文明更成熟”:
- 数据管线是否能持续产生有效多样性
- 评测是否能把泛化变成硬指标
- 系统是否能在失败中自愈,而不是靠剪掉失败镜头
真正的智能,不是演示给别人看的一次成功,而是面对变化仍然可靠的长期表现。
而这,才是具身智能值得被押注的地方。