对话罗剑岚：把机器人"部署"本身变成训练的一部分

核心要点

部署即训练：LWD 将机器人学习过程重构为持续运转的数据飞轮——离线预训练 → 机器人集群执行 → 真实环境数据实时回流 → 云端在线强化学习更新 → 优化后的策略同步回机器人集群
成果显著：在 16 台双臂机器人、8 个复杂任务测试中，搭载新框架的机器人平均成功率达 95%；长流程任务中最高带来 17% 的成功率提升，单次任务平均操作周期缩短约 23.75 秒
核心瓶颈：大规模真实部署背后的经济问题——只有足够多的机器人在真实场景中持续干活，积累上万小时甚至上万台规模的交互数据，数据飞轮才有机会真正闭环运转
数据全部回流：LWD 部署后数据无筛选回流，没有人工筛选步骤；人工干预数据通过结果自动标注（成功=1，失败=0）
稀疏奖励优势：密集奖励容易导致 reward hacking；稀疏奖励至少能保证最终行为符合预期
适用场景：既非完全开放的家庭场景，也非高度结构化的工业环境，而是介于两者之间的"middle ground"，如商超、药店和便利店

详细内容

1. 机器人"边干边学"后成功率达到 95%

传统具身模型通常经历大规模预训练、模仿学习、再到有限的强化学习优化，最后进入部署验证阶段。这个流程的问题在于，部署即为结束，真实世界的数据包括环境变化带来的分布偏移、长尾任务中的探索过程，以及失败暴露的能力边界并没有被系统性地吸收进下一轮训练。最有价值的那部分经验，反而被浪费掉了。

而 LWD 的核心能力，可以打通这一断裂。它将机器人学习过程重构为一个持续运转的数据飞轮：离线强化学习预训练得到初始策略，推送到机器人集群中执行；机器人在真实环境中产生的自主轨迹和人工接管数据实时回流；Learner 在云端进行在线强化学习更新；再将优化后的策略同步回机器人集群，如此循环往复。

在这个框架下，每一台部署中的机器人，既是执行者，也是数据采集节点，真实世界从"测试集"变成了"主训练场"。部署不再是训练的终点，而是机器人智能持续提升的起点。

据悉，团队在 16 台双臂机器人组成的真实集群上，针对商超补货、泡茶、榨汁、物品回收等 8 个复杂任务进行了系统测试。这些任务往往需要持续数分钟的多步骤规划和小人物理操作。评测结果显示，搭载新框架的机器人平均成功率达到 95%，显著优于传统方案。在最具挑战的长流程任务中，新框架带来了最高 17% 的成功率提升，而且单次任务平均操作周期缩短了约 23.75 秒。这意味着机器人变得更加聪明，学会了自我纠错和路径优化。

在被问及 LWD 的数据飞轮要真正转起来的瓶颈时，罗剑岚直接指向了一个更底层的事实约束，即大规模真实部署背后的经济问题。"机器人是一个系统工程，数据、基建、算法、机器人数量以及人工干预都重要，但如果只看当前阶段，最核心的问题还是 cost。只有当足够多的机器人在真实场景中持续干活，积累上万小时甚至上万台规模的交互数据，这个飞轮才有机会真正闭环运转。即使现有算法还不完美，其中大量 incremental improvement 依然可以工作。"

这也意味着，部署本身正在成为新的训练资源。"换句话说，谁能部署更多机器人、让更多真实数据持续回流，谁就更有机会把数据飞轮真正转起来。"罗剑岚还表示，在 scale up 过程中，还会继续遇到数据质量、基础实施和算法层面的新问题。但这些问题是随着部署规模扩大逐步暴露、逐步解决，而不是在一开始就能完全预先解决。

2. 部署数据全部回流，人工干预不等同成功示范

罗剑岚提出的这条路径，听起来像是一项顺理成章的演进。但真正的难点在于，这种从离线到在线的统一训练，需要同时解决分布偏移、奖励稀疏和数据来源的高度异构三个问题。

据罗剑岚介绍，围绕这些难点，LWD 在技术设计上做出了一系列关键选择，包括让所有部署数据无筛选回流、通过强化学习框架统一处理不同来源数据、将人工干预数据通过结果自动打标纳入同一奖励体系，以及采用稀疏奖励来避免 reward hacking 问题。

首先，LWD 是强化学习框架，部署后的数据会全部回流使用，没有人工筛选步骤。系统是在线、分布式地把数据拿回来训练。但对于人工干预数据，处理方式也不是简单地一律当作成功示范，而是自动打标的。如果人工干预后任务最终完成，就标记为 1；如果干预后仍然失败，就标记为 0。

更重要的一点是，干预率本身是在下降的。罗剑岚称，随着机器人自主能力提升、数据不断回流，系统会越来越不依赖人工接管。所以在实际形态上，更像是一种混合自治：初期人机协作较多，后期逐步过渡到更高自主性。"这一点其实和自动驾驶的发展路径是类似的。"

其次，LWD 奖励函数使用的是稀疏奖励。核心原因是 dense reward 容易带来 reward hacking。稀疏奖励确实可能让模型学得更慢，因为它提供了 shaping 信号；但手写 reward function 往往很难和真实物理系统、智能体真正应该完成的行为一一对应。

罗剑岚举的一个典型例子是仿里用 RL 学走路：如果奖励只写成"重心速度越快越好"，模型可能会找到一种不符合常识的"前进方式"，比如把头放在地上、腿朝上，用奇怪姿态让重心快速移动。为了修正这些问题，又要不断增加脚朝地、头朝上、姿态合理等额外项，最后 reward function 会变得非常复杂，而且仍然不一定和真实目标完全一致。

"机器人操作也是类似的。manipulation 任务里，很难一次性把所有细节奖励都写对；只要没写对，就可能被模型 hack。因此稀疏奖励的好处是，它至少能保证最终行为符合预期：成功就是 1，不成功就是 0。"他也坦言，尽管如此，稀疏奖励的问题也很明显：长流程任务中信号很少，backup 不稳定，很难把正确信号传回到前面的步骤。LWD 用 distributional value learning 来缓解这个问题，把原本的标量价值信号建膜形成分布，通过备份这个分布来保留更多统计信息。

对于"边部署边学习"可能带来的安全性与稳定性问题，罗剑岚也明确表示，在真实部署中，一定会有额外的安全层。模型不会每时每刻都在变化，更新是有节奏、有控制的。另外，基础模型本身成功率就比较高，在线学习更多是在这个基础上做提升，而不是完全不稳定的探索。

3. 率先跑通闭环：最适合的是"middle ground"

当"部署也变成训练"这件事成立之后，它改变的就不仅是单一算法或系统设计，而是整个具身智能的技术路径与产业逻辑。

在罗剑岚看来，这一过程可以参考自动驾驶的发展。自动驾驶没有办法在真实道路上随意在线试错，所以会发展出世界模型、高保真仿真器和离线评测体系；从产业链看，它也经历了从少量试驾车、离线数据采集，逐渐转向部署数据回流、处理回流数据、再训练、再推送模型的迭代过程。

"机器人如果能形成 LWD 这样的部署闭环，数据链条也会从'先采集、再训练、再部署'的离线管理模式，转向'部署中持续回流数据，云端持续训练，再把新模型推回机器人'的过程。区别在于，机器人场景如果允许在线学习和试错，这套在线闭环的效率可能会更快。"

具体落地上，他认为，最适合率先跑通这一闭环的不会是完全开放的家庭场景，也不会是高度结构化的工业环境，而是介于两者之间的"middle ground"，例如商超、药店和便利店。"这类半结构化场景的 layout 和物品类别有一定规律，不是完全不可控；但同时又存在丰富变化，对泛化性和性能都有要求。"

4. "大规模实验中，未来会涌现 scaling 现象"

LWD 的核心是，预训练要和部署结合，形成预训练和后训练共同驱动的部署闭环。谈及 VLA 和世界模型两条预训练路径的未来走向，罗剑岚表示，"如果 VLA 指的是 vision-language-action model，即同时包含视觉、语言和动作，那么它不太可能被世界模型简单取代。机器人要做动作，一定需要 vision，也一定需要 action。"

他指出，真正有争议的更多的是 language 是否必要。如果机器人要在开放世界中完成复杂操作、长流程任务拆解和类似人的推理，那么 language 是需要的，因为语言模型是目，前实现这类推理能力最好的工具之一。

"但现在的 VLA 形式不一定会固定下来。比如是不是一定要把 action 当作若干 token 接到 VLM 后面、对齐到某个 latent space，这些都不一定。"

罗剑岚还透露，LWD 是在预训练模型基础上做后训练，对数据的利用效率很高，即使使用的数据量不算特别大，也能看到性能提升。随着后训练时间增加，模型性能会在多个任务上同时提升。"更大规模实验中，未来可能会看到类似 test-time scaling 的现象。"

不过，罗剑岚也强调，机器人不完全等同于语言模型，语言模型的 scaling 往往可以通过 pretraining loss 和下游 benchmark 建立比较清晰的关系。机器人还需要先把问题定义清楚，包括在哪些部署场景、优化哪些指标，才能进一步讨论 scaling 或涌现。

声明：本文为 AI 前线原创，未经许可禁止转载。