具身智能的下一块短板:不是模型,而是“劳动”
具身智能最近最像什么?
像 2012 年左右的深度学习:算法的想象力已经在,硬件的故事也讲通了,但真正卡住进度的,是最“土”的那一段基础设施。
当年那段基础设施叫数据。
今天,具身智能的那段基础设施,叫劳动。
数据从“互联网”搬到“客厅”
大模型在互联网里长大:文本、图片、代码,抓就有。
机器人不行。
它要学的是“我把杯子从桌上拿起来”的那条轨迹;“我把床单抖开再铺平”的那套动作;“我拿着柔性的线,插进一个不那么配合的口”的那点耐心。
这些东西不在网页里。
它们在人的身体里。
于是数据的采集路径发生了一个很有趣的迁移:从“爬虫 + API”,迁移到“手机绑在头上 + 做家务”。
这个画面荒诞,但很真实。
具身智能的训练集,本质上是一种新型外包
一旦数据进入家庭场景,很多事情就不再是纯技术问题。
你会发现,具身智能的训练集更像一种全球化外包:
- 工作被拆成可计件/可计时的动作片段
- 交付物不是代码,而是“人类如何做事”的视频
- 质量控制不是 code review,而是“是否符合采集规范、是否安全、是否可泛化”
这套机制会自然地长出一整条产业链:招募、培训、审核、标注、清洗、分发。
也会自然地长出熟悉的张力:成本、合规、隐私、劳动保障。
把这些问题想清楚,可能比把模型参数再堆大一倍更重要。
训练数据的“好坏”,不是正确与否,而是“习惯”
互联网文本的质量,大部分时候用“准确/不准确”衡量。
具身数据不一样。
你在家里做事,很多动作并不“标准”:
- 省力的小聪明
- 不太安全但很常见的姿势
- 对物体的粗暴对待
这些习惯是人类社会的真实。
如果机器人学到的是这些习惯,它会不会把“错误的习惯”规模化?
但反过来,如果你只允许“教科书式动作”,机器人会不会永远学不会在真实家庭里干活?
这意味着:具身智能的质量体系不能只靠模型评测。
它需要一种新的“行为规范”,以及把规范落地到采集、审核、训练、上线的闭环里。
你以为在训练机器人,其实在塑造一种新的组织形态
把几千个家庭里的家务视频汇聚起来,本质上是在组织一群人,为一个未来的“劳动力替代品”提供训练材料。
这件事天然会产生两个方向的拉扯:
一边是效率:
更便宜、更快、更大规模。
另一边是信任:
更透明、更可撤回、更可解释。
很多公司会先选择效率。
因为资本市场奖励效率。
但具身智能真正要进入家庭,最后一定要支付信任的账:
你很难让一个家庭接受“我不知道这段视频被谁用、用来干什么、存多久、能不能删”。
那不是 PR 的问题。
那是产品机制与组织机制的问题。
具身智能真正的护城河:可持续的数据供给
当下很多具身团队的叙事是:
我们有更强的模型、更聪明的策略、更好的机械臂。
这些当然重要。
但如果把时间拉长一点,我更愿意押注另一件事:
谁能建立一套可持续、可合规、可扩张的数据供给体系,谁就更可能跑到最后。
因为具身智能的“长坡厚雪”,不是算力。
而是持续不断地把真实世界的复杂性,变成可训练的样本。
结语:下一次跃迁,来自“把人组织起来”
互联网时代的 AI,是把信息组织起来。
具身时代的 AI,是把人组织起来。
更准确地说,是把人的动作、习惯、环境、约束,以一种不伤害人的方式组织起来。
这听起来不像技术。
但每一次技术范式的跃迁,都要补上这么一段“脏活累活”。
具身智能也是。
它的下一块短板,不在模型里。
在劳动里。