具身智能的大赛，真正比的不是机械臂，是数据与泛化

2026-04-04

这两年，具身智能的讨论越来越像一场“看起来很强”的比赛：视频里机械臂行云流水，Demo 里任务闭环完整，发布会一句“端到端”就能把观众的心率拉高。

但你只要把镜头稍微往旁边挪一点，就会看到另一个现实：具身智能真正的难题，往往不在机械臂，也不在某个网络结构，而在“数据如何形成”“评测如何成立”“系统如何在随机环境里不崩”。

我越来越相信一件事：具身智能的竞争，很快会从“模型参数与算力”转向“数据与泛化”。也就是说，真正决定谁能落地的，不是你能把一个动作做得多漂亮，而是你能不能在不断变化的物理世界里，维持稳定的成功率。

1. 物理世界的敌人叫“随机性”

软件世界里，我们习惯了可控：接口稳定、输入结构化、环境变量有限。你把一个 agent 放进 CRM 或工单系统，最难的是流程与权限；但一旦上线，世界不会每天换一套桌面颜色。

物理世界完全反过来。哪怕只是“把线插进接口”这种看似简单的任务，随机性会从四面八方涌进来：

这就是具身智能里最残酷的一句话：你不是在解决一个任务，你是在对抗一个世界。

所以，单场景的视频 Demo 很容易“看起来像通用智能”，但它往往只是把随机性按在地上捂住了嘴。

一个成熟的技术领域，必须回答两个问题：

前者是能力，后者才是泛化。

如果你把评测设计成“固定位置、固定光照、固定道具”，那几乎必然会得到“刷榜工程学”：

这类系统在实验室里会越来越稳，在真实场景里会越来越脆。

我更喜欢把评测拆成两层：

这不是形式主义，而是一种工程诚实：把“是否通用”从口号变成可测量的指标。

很多人谈具身智能，会把重点放在“模型够不够大”。但当你进入真实开发，会发现决定进度的常常是三件事：

具身智能的数据不是一堆图片，而是一段段发生在时间轴上的互动：视觉、力觉、位姿、指令、失败恢复、环境变化。

你需要的是一套“可复现的物理数据管线”：

没有这套东西，所谓“端到端”会变成“端到端地撞墙”。

具身智能最后交付的不是一个漂亮的 loss 曲线，而是一个朴素到近乎无聊的指标：

当你把这些问题写进评测框架，团队的研发习惯会被迫改变：不再迷信单点突破，而开始重视“分布外”的系统性补强。

一个能在物理世界长期稳定工作的机器人，更像一个“多模块协作的产品”：

这听起来很像软件工程里做 SRE：你关注的是“平均看起来不错”还是“尾部失败可控”。

我同意“越早进真实世界越好”。

不是因为真实世界更浪漫，而是因为它会给你提供最诚实的反馈：你到底有没有解决泛化，还是只是在某个摄影棚里把概率堆高。

但“早进真实世界”必须配套一套正确的游戏规则：

具身智能的真正门槛，最终不是“做出一次成功”，而是“做出一千次成功，且你说得清楚为什么”。

如果说上一波 AI 的竞争，更多是“谁有更好的模型与更大的算力”；那具身智能的竞争，会更像“谁的工程文明更成熟”：

真正的智能，不是演示给别人看的一次成功，而是面对变化仍然可靠的长期表现。

而这，才是具身智能值得被押注的地方。