具身智能的下一块短板：不是模型，而是“劳动”

2026-04-04

具身智能最近最像什么？

像 2012 年左右的深度学习：算法的想象力已经在，硬件的故事也讲通了，但真正卡住进度的，是最“土”的那一段基础设施。

当年那段基础设施叫数据。

今天，具身智能的那段基础设施，叫劳动。

数据从“互联网”搬到“客厅”

大模型在互联网里长大：文本、图片、代码，抓就有。

机器人不行。

它要学的是“我把杯子从桌上拿起来”的那条轨迹；“我把床单抖开再铺平”的那套动作；“我拿着柔性的线，插进一个不那么配合的口”的那点耐心。

这些东西不在网页里。

它们在人的身体里。

于是数据的采集路径发生了一个很有趣的迁移：从“爬虫 + API”，迁移到“手机绑在头上 + 做家务”。

这个画面荒诞，但很真实。

具身智能的训练集，本质上是一种新型外包

一旦数据进入家庭场景，很多事情就不再是纯技术问题。

你会发现，具身智能的训练集更像一种全球化外包：

工作被拆成可计件/可计时的动作片段
交付物不是代码，而是“人类如何做事”的视频
质量控制不是 code review，而是“是否符合采集规范、是否安全、是否可泛化”

这套机制会自然地长出一整条产业链：招募、培训、审核、标注、清洗、分发。

也会自然地长出熟悉的张力：成本、合规、隐私、劳动保障。

把这些问题想清楚，可能比把模型参数再堆大一倍更重要。

训练数据的“好坏”，不是正确与否，而是“习惯”

互联网文本的质量，大部分时候用“准确/不准确”衡量。

具身数据不一样。

你在家里做事，很多动作并不“标准”：

省力的小聪明
不太安全但很常见的姿势
对物体的粗暴对待

这些习惯是人类社会的真实。

如果机器人学到的是这些习惯，它会不会把“错误的习惯”规模化？

但反过来，如果你只允许“教科书式动作”，机器人会不会永远学不会在真实家庭里干活？

这意味着：具身智能的质量体系不能只靠模型评测。

它需要一种新的“行为规范”，以及把规范落地到采集、审核、训练、上线的闭环里。

你以为在训练机器人，其实在塑造一种新的组织形态

把几千个家庭里的家务视频汇聚起来，本质上是在组织一群人，为一个未来的“劳动力替代品”提供训练材料。

这件事天然会产生两个方向的拉扯：

一边是效率：

更便宜、更快、更大规模。

另一边是信任：

更透明、更可撤回、更可解释。

很多公司会先选择效率。

因为资本市场奖励效率。

但具身智能真正要进入家庭，最后一定要支付信任的账：

你很难让一个家庭接受“我不知道这段视频被谁用、用来干什么、存多久、能不能删”。

那不是 PR 的问题。

那是产品机制与组织机制的问题。

具身智能真正的护城河：可持续的数据供给

当下很多具身团队的叙事是：

我们有更强的模型、更聪明的策略、更好的机械臂。

这些当然重要。

但如果把时间拉长一点，我更愿意押注另一件事：

谁能建立一套可持续、可合规、可扩张的数据供给体系，谁就更可能跑到最后。

因为具身智能的“长坡厚雪”，不是算力。

而是持续不断地把真实世界的复杂性，变成可训练的样本。

结语：下一次跃迁，来自“把人组织起来”

互联网时代的 AI，是把信息组织起来。

具身时代的 AI，是把人组织起来。

更准确地说，是把人的动作、习惯、环境、约束，以一种不伤害人的方式组织起来。

这听起来不像技术。

但每一次技术范式的跃迁，都要补上这么一段“脏活累活”。

具身智能也是。

它的下一块短板，不在模型里。

在劳动里。