本文提出了一种轨迹级别 SE (3) 等变的扩散策略(ET-SEED),通过将等变表示学习和扩散策略结合,使机器人能够在极少的示范数据下高效学习复杂操作技能,并能够泛化到不同物体姿态和环境中。作者拓展了 SE (3) 等变扩散过程的理论,并在 SE (3) 流形上提出了一种高效的等变扩散过程,简化了建模和推理过程。相比于已有的方法,ET-SEED 在数据效率、泛化能力和计算开销方面均取得了突破性的提升。
介绍视频背景在机器人操作任务中,模仿学习(imitation learning)已被广泛用于学习各种操作技能,如开门、书写、折叠衣物等。然而,传统方法通常依赖大量示范数据,特别是当物体的空间姿态超出训练分布时,模型的泛化能力较差,容易出现执行失败。例如,一个在桌面中央学习到的物体抓取策略,可能在物体位于桌角或旋转一定角度后完全失效。 (图 1)虽然现有方法尝试通过数据增强(data augmentation)或对比学习(contrastive learning)来缓解这一问题,但它们往往需要额外的任务特定知识或额外训练,并且无法在理论上保证空间泛化能力。相比之下,物理世界中广泛存在对称性(symmetry),例如刚体运动具有 SE (3) 等变性,即如果物体发生平移或旋转,相应的操作轨迹也应当相应变化(如图 1)。例如:
在不同角度的纸张上书写,笔迹的轨迹应该随纸张旋转;
在不同位置的门上执行开门操作,轨迹应相应变化,而不是重新学习新的策略;
在不同初始状态的衣物上执行折叠操作,轨迹应能自动适配。
ET-SEED 便是基于这一核心思想,提出了一种轨迹级的 SE (3) 等变扩散策略,使得机器人能够在少量示范数据下高效学习,并泛化到未见过的物体姿态和场景。方法ET-SEED 通过等变扩散建模和高效的去噪策略,在保证 SE (3) 等变性的同时,提高了计算效率,核心创新点如下:1. 轨迹级 SE (3) 等变扩散建模传统的扩散策略通常仅适用于欧几里得空间,而 ET-SEED 直接在 SE (3) 流形(manifold)上建模,使得轨迹在 3D 旋转和平移变换下保持等变性。由于这样的建模方法天然符合任务的内在特征,ET-SEED 极大提升了泛化能力,使其适用于各种机器人操作任务。2. 降低训练复杂度的等变扩散过程现有的等变扩散方法要求所有去噪步骤都保持等变性,但这会显著增加推理难度。ET-SEED 拓展了现有的等变扩散理论,证明仅需一个等变去噪步骤即可保证最终轨迹的等变性,从而显著降低训练难度,同时保持泛化能力(如图 2)。 (图 2)3. 结合 SE (3) Transformer 的扩散去噪策略ET-SEED 结合了 SE (3) Transformer 并通过在 SE (3) 流形上定义动作空间,构建了一种新的等变网络架构。该架构在去噪过程中采用两阶段策略(如图 3):