对话罗剑岚:把机器人"部署"本身变成训练的一部分
核心要点
- 部署即训练:LWD 将机器人学习过程重构为持续运转的数据飞轮——离线预训练 → 机器人集群执行 → 真实环境数据实时回流 → 云端在线强化学习更新 → 优化后的策略同步回机器人集群
- 成果显著:在 16 台双臂机器人、8 个复杂任务测试中,搭载新框架的机器人平均成功率达 95%;长流程任务中最高带来 17% 的成功率提升,单次任务平均操作周期缩短约 23.75 秒
- 核心瓶颈:大规模真实部署背后的经济问题——只有足够多的机器人在真实场景中持续干活,积累上万小时甚至上万台规模的交互数据,数据飞轮才有机会真正闭环运转
- 数据全部回流:LWD 部署后数据无筛选回流,没有人工筛选步骤;人工干预数据通过结果自动标注(成功=1,失败=0)
- 稀疏奖励优势:密集奖励容易导致 reward hacking;稀疏奖励至少能保证最终行为符合预期
- 适用场景:既非完全开放的家庭场景,也非高度结构化的工业环境,而是介于两者之间的"middle ground",如商超、药店和便利店
详细内容
1. 机器人"边干边学"后成功率达到 95%
传统具身模型通常经历大规模预训练、模仿学习、再到有限的强化学习优化,最后进入部署验证阶段。这个流程的问题在于,部署即为结束,真实世界的数据包括环境变化带来的分布偏移、长尾任务中的探索过程,以及失败暴露的能力边界并没有被系统性地吸收进下一轮训练。最有价值的那部分经验,反而被浪费掉了。
而 LWD 的核心能力,可以打通这一断裂。它将机器人学习过程重构为一个持续运转的数据飞轮:离线强化学习预训练得到初始策略,推送到机器人集群中执行;机器人在真实环境中产生的自主轨迹和人工接管数据实时回流;Learner 在云端进行在线强化学习更新;再将优化后的策略同步回机器人集群,如此循环往复。
在这个框架下,每一台部署中的机器人,既是执行者,也是数据采集节点,真实世界从"测试集"变成了"主训练场"。部署不再是训练的终点,而是机器人智能持续提升的起点。
据悉,团队在 16 台双臂机器人组成的真实集群上,针对商超补货、泡茶、榨汁、物品回收等 8 个复杂任务进行了系统测试。这些任务往往需要持续数分钟的多步骤规划和小人物理操作。评测结果显示,搭载新框架的机器人平均成功率达到 95%,显著优于传统方案。在最具挑战的长流程任务中,新框架带来了最高 17% 的成功率提升,而且单次任务平均操作周期缩短了约 23.75 秒。这意味着机器人变得更加聪明,学会了自我纠错和路径优化。
在被问及 LWD 的数据飞轮要真正转起来的瓶颈时,罗剑岚直接指向了一个更底层的事实约束,即大规模真实部署背后的经济问题。"机器人是一个系统工程,数据、基建、算法、机器人数量以及人工干预都重要,但如果只看当前阶段,最核心的问题还是 cost。只有当足够多的机器人在真实场景中持续干活,积累上万小时甚至上万台规模的交互数据,这个飞轮才有机会真正闭环运转。即使现有算法还不完美,其中大量 incremental improvement 依然可以工作。"
这也意味着,部署本身正在成为新的训练资源。"换句话说,谁能部署更多机器人、让更多真实数据持续回流,谁就更有机会把数据飞轮真正转起来。"罗剑岚还表示,在 scale up 过程中,还会继续遇到数据质量、基础实施和算法层面的新问题。但这些问题是随着部署规模扩大逐步暴露、逐步解决,而不是在一开始就能完全预先解决。
2. 部署数据全部回流,人工干预不等同成功示范
罗剑岚提出的这条路径,听起来像是一项顺理成章的演进。但真正的难点在于,这种从离线到在线的统一训练,需要同时解决分布偏移、奖励稀疏和数据来源的高度异构三个问题。
据罗剑岚介绍,围绕这些难点,LWD 在技术设计上做出了一系列关键选择,包括让所有部署数据无筛选回流、通过强化学习框架统一处理不同来源数据、将人工干预数据通过结果自动打标纳入同一奖励体系,以及采用稀疏奖励来避免 reward hacking 问题。
首先,LWD 是强化学习框架,部署后的数据会全部回流使用,没有人工筛选步骤。系统是在线、分布式地把数据拿回来训练。但对于人工干预数据,处理方式也不是简单地一律当作成功示范,而是自动打标的。如果人工干预后任务最终完成,就标记为 1;如果干预后仍然失败,就标记为 0。
更重要的一点是,干预率本身是在下降的。罗剑岚称,随着机器人自主能力提升、数据不断回流,系统会越来越不依赖人工接管。所以在实际形态上,更像是一种混合自治:初期人机协作较多,后期逐步过渡到更高自主性。"这一点其实和自动驾驶的发展路径是类似的。"
其次,LWD 奖励函数使用的是稀疏奖励。核心原因是 dense reward 容易带来 reward hacking。稀疏奖励确实可能让模型学得更慢,因为它提供了 shaping 信号;但手写 reward function 往往很难和真实物理系统、智能体真正应该完成的行为一一对应。
罗剑岚举的一个典型例子是仿里用 RL 学走路:如果奖励只写成"重心速度越快越好",模型可能会找到一种不符合常识的"前进方式",比如把头放在地上、腿朝上,用奇怪姿态让重心快速移动。为了修正这些问题,又要不断增加脚朝地、头朝上、姿态合理等额外项,最后 reward function 会变得非常复杂,而且仍然不一定和真实目标完全一致。
"机器人操作也是类似的。manipulation 任务里,很难一次性把所有细节奖励都写对;只要没写对,就可能被模型 hack。因此稀疏奖励的好处是,它至少能保证最终行为符合预期:成功就是 1,不成功就是 0。"他也坦言,尽管如此,稀疏奖励的问题也很明显:长流程任务中信号很少,backup 不稳定,很难把正确信号传回到前面的步骤。LWD 用 distributional value learning 来缓解这个问题,把原本的标量价值信号建膜形成分布,通过备份这个分布来保留更多统计信息。
对于"边部署边学习"可能带来的安全性与稳定性问题,罗剑岚也明确表示,在真实部署中,一定会有额外的安全层。模型不会每时每刻都在变化,更新是有节奏、有控制的。另外,基础模型本身成功率就比较高,在线学习更多是在这个基础上做提升,而不是完全不稳定的探索。
3. 率先跑通闭环:最适合的是"middle ground"
当"部署也变成训练"这件事成立之后,它改变的就不仅是单一算法或系统设计,而是整个具身智能的技术路径与产业逻辑。
在罗剑岚看来,这一过程可以参考自动驾驶的发展。自动驾驶没有办法在真实道路上随意在线试错,所以会发展出世界模型、高保真仿真器和离线评测体系;从产业链看,它也经历了从少量试驾车、离线数据采集,逐渐转向部署数据回流、处理回流数据、再训练、再推送模型的迭代过程。
"机器人如果能形成 LWD 这样的部署闭环,数据链条也会从'先采集、再训练、再部署'的离线管理模式,转向'部署中持续回流数据,云端持续训练,再把新模型推回机器人'的过程。区别在于,机器人场景如果允许在线学习和试错,这套在线闭环的效率可能会更快。"
具体落地上,他认为,最适合率先跑通这一闭环的不会是完全开放的家庭场景,也不会是高度结构化的工业环境,而是介于两者之间的"middle ground",例如商超、药店和便利店。"这类半结构化场景的 layout 和物品类别有一定规律,不是完全不可控;但同时又存在丰富变化,对泛化性和性能都有要求。"
4. "大规模实验中,未来会涌现 scaling 现象"
LWD 的核心是,预训练要和部署结合,形成预训练和后训练共同驱动的部署闭环。谈及 VLA 和世界模型两条预训练路径的未来走向,罗剑岚表示,"如果 VLA 指的是 vision-language-action model,即同时包含视觉、语言和动作,那么它不太可能被世界模型简单取代。机器人要做动作,一定需要 vision,也一定需要 action。"
他指出,真正有争议的更多的是 language 是否必要。如果机器人要在开放世界中完成复杂操作、长流程任务拆解和类似人的推理,那么 language 是需要的,因为语言模型是目,前实现这类推理能力最好的工具之一。
"但现在的 VLA 形式不一定会固定下来。比如是不是一定要把 action 当作若干 token 接到 VLM 后面、对齐到某个 latent space,这些都不一定。"
罗剑岚还透露,LWD 是在预训练模型基础上做后训练,对数据的利用效率很高,即使使用的数据量不算特别大,也能看到性能提升。随着后训练时间增加,模型性能会在多个任务上同时提升。"更大规模实验中,未来可能会看到类似 test-time scaling 的现象。"
不过,罗剑岚也强调,机器人不完全等同于语言模型,语言模型的 scaling 往往可以通过 pretraining loss 和下游 benchmark 建立比较清晰的关系。机器人还需要先把问题定义清楚,包括在哪些部署场景、优化哪些指标,才能进一步讨论 scaling 或涌现。
声明:本文为 AI 前线原创,未经许可禁止转载。