这是用户在 2024-11-4 9:46 为 https://arxiv.org/html/2401.11439?_immersive_translate_auto_translate=1 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

许可:CC BY 4.0

arXiv:2401.11439v2 [cs.RO] 2024 年 9 月 23 日
 使用下划线

 源文本:\ul 翻译文本:


以通用流程为基础的可扩展机器人学习

Chengbo Yuan, Chuan Wen, Tong Zhang, Yang Gao
Institute for Interdisciplinary Information Sciences, Tsinghua University
Shanghai Qi Zhi Institute
Shanghai Artificial Intelligence Laboratory
{ycb24, cwen20, zhangton20}@mails.tsinghua.edu.cn
gaoyangiiis@mail.tsinghua.edu.cn
Corresponding Author
 摘要


我们通过一个可扩展的框架来应对获取现实世界操作技能的挑战。我们认为,确定一个能够利用大规模数据集的适当预测目标对于实现高效和普遍的学习至关重要。因此,我们提出使用 3D 流作为理想的预测目标,它代表了感兴趣物体上 3D 点的未来轨迹。为了利用可扩展的数据资源,我们将注意力转向人类视频。我们首次从大规模 RGBD 人类视频数据集中直接开发了一种语言条件下的 3D 流预测模型。我们的预测流提供了可操作的指导,从而在现实世界场景中促进零样本技能迁移。我们采用基于闭环流预测的策略部署我们的方法。值得注意的是,无需任何领域内微调,我们的方法在零样本人类到机器人的技能迁移中实现了令人印象深刻的 81%成功率,涵盖了 6 个场景中的 18 项任务。 我们的框架具有以下优势:(1) 可扩展性:利用跨实体数据资源;(2) 广泛应用:涵盖多种物体类别,包括刚体、关节体和软体;(3) 稳定的技能迁移:在小推理域差距下提供可操作指导。代码、数据和补充材料可在 https://general-flow.github.io/ 获取。


关键词:流动,可转移的可操作性,人类视频

 1 简介


我们旨在开发一个新框架,以实现机器人物体操作的可扩展学习。随着未来更多数据和更大模型的训练,该框架有潜力逐步提升机器人的能力,即在LLMs [1]中观察到的规模定律。受LLMs训练范式的启发[2],我们认为两个关键因素有助于其强大的泛化能力:(1)一个庞大的训练数据集,具有较小的推理域差距,例如LLMs中的所有互联网文本;(2)一个基础预测任务,例如LLMs中的文本标记预测。我们如何将这些元素转化为机器人学习?


面对收集真实世界机器人数据的挑战[3, 4],我们转向大规模人类视频数据集。这些数据资源保证了可扩展性和较小的推理域差距(没有从模拟到现实的问题),是有效泛化的关键要素。此外,人类操作数据提供了丰富多样的物理交互和动态行为的真实世界资源,与机器人操作密切相关。下一步是确定一个合适的预测目标。我们提议使用可操作性来担任这一角色。基于吉布森的理论[5],可操作性专注于与对象相关的动作,对操纵者保持中立。这一特性使可操作性成为人类到机器人技能转移的基石。


什么样的具象格式能够导致一个对物体类别普遍适用并为机器人操作提供可操作指导的基础预测目标?在本文中,我们提出了一种通用流作为基础具象(如图 1 所示)来实现这一目标。这种具象阐明了感兴趣物体上 3D 点的未来轨迹。以“打开保险箱”任务为例(图 1 中间部分):通用流表示保险箱上各点的未来位置。然后,机器人可以通过跟随门的流动获得一个持久的开门技能动作原语。


先前的工作[6, 7, 8, 9]尝试从仿真或真实机器人数据中提取 3D 流表示。然而,这些方法存在领域迁移差距[6]或可扩展性有限[7]。相比之下,通用流利用了现实世界中的可扩展数据资源,即人类视频,从而消除了仿真到现实的领域差距以及对繁琐的机器人数据收集的依赖。这些视频中背景、物体和人类行为的多样性也显著增强了真实机器人执行的鲁棒性。我们称这种能力为“通用流”,因为它具备普遍的机器人学习能力:(1) 可扩展性:利用可扩展的人类数据资源;(2) 广泛应用:涵盖多种物体类别,包括刚体、关节体和软体;(3) 稳定的技能转移:即使在零样本执行的情况下,也能提供具有小推理领域差距的可操作指导。


在本文中,我们首先开发了从 RGBD 人体视频数据集中直接提取 3D 流标签的管道,用于模型训练。我们发现,在现实场景点云中预测密集流仍然是一个挑战,主要原因是轨迹尺度的变化和需要在零样本场景中增强鲁棒性。为了解决这些问题,我们在模型方面采用了尺度感知策略,并辅以专注于实体遮挡(人手和机械臂)和查询点采样(感兴趣对象上的 3D 点)的增强技术,从而提高了零样本稳定性。


通过实施基于闭环流动预测的简单启发式策略,我们在真实环境中使用 Franka-Emika 机器人评估了我们的方法。无需任何领域内微调,我们的系统实现了稳定的零样本人类到机器人的技能转移。借助通用流动可操作性的丰富指导,仅用一个模型,我们的系统在 6 个场景中的 18 种不同任务中达到了 81%的平均成功率,涵盖了刚体、关节体和软体等多种物体类型。这些发现突显了通用流动在引领可扩展的通用机器人学习方面的变革潜力。

Refer to caption

图 1:我们提出通用流作为基础的可操作性。我们的框架使用通用流可操作性作为人到机器人的技能转移的桥梁表示。仅通过 RGBD 人类视频数据集训练,我们的系统在 18 个现实世界的机器人操作任务中实现了 81%的平均成功率,突显了可扩展的机器人学习路径。

 2 问题表述


操作性 [5] 通常包括功能抓取和随后的运动 [10, 11]。虽然稳健的功能抓取已得到广泛研究 [12, 13, 14],但为抓取后的运动提供先验指导的一般方法仍然是一个挑战,这也是我们论文的主要关注点。


理解抓取后动作的语义和几何形状以进行准确预测是复杂的。例如,在“打开保险箱”任务中,模型必须推断出门的点轨迹绕着一个隐式轴旋转,而基座上的点保持静止。此外,它还必须注意到靠近轴的点的轨迹需要较小的预测尺度或长度。为了解决这些问题,我们引入了“通用流”作为提供下游操作可行指导的便利性:


给定一个感知观察 SSitalic_S (来自任何具象化)和一个任务指令 IIitalic_I ,对于空间中的 NqsubscriptN_{q}italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT 个 3D 查询点 QRNq×3superscriptsubscript3Q\in R^{N_{q}\times 3}italic_Q ∈ italic_R start_POSTSUPERSCRIPT italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT × 3 end_POSTSUPERSCRIPT ,一般流 FRNq×T×3superscriptsubscript3F\in R^{N_{q}\times T\times 3}italic_F ∈ italic_R start_POSTSUPERSCRIPT italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT × italic_T × 3 end_POSTSUPERSCRIPT 表示这些点在 TTitalic_T 个未来时间戳上的轨迹。


详细公式 在这项工作中,我们使用来自真实世界 RGBD 相机流的点云作为我们的感知状态 SSitalic_S 。我们的模型处理自然语言指令 IIitalic_I ,场景点云特征 PsRNs×6subscriptsuperscriptsubscript6P_{s}\in R^{N_{s}\times 6}italic_P start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT ∈ italic_R start_POSTSUPERSCRIPT italic_N start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT × 6 end_POSTSUPERSCRIPT (包含 NssubscriptN_{s}italic_N start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT 个具有 XYZ + RGB 属性的点),以及 NqsubscriptN_{q}italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT 空间查询点 QRNq×3superscriptsubscript3Q\in R^{N_{q}\times 3}italic_Q ∈ italic_R start_POSTSUPERSCRIPT italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT × 3 end_POSTSUPERSCRIPT (包含 NqsubscriptN_{q}italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT 个具有 XYZ 属性的点)。目标是预测一个轨迹集,或称为“流”,记为 FRNq×T×3superscriptsubscript3F\in R^{N_{q}\times T\times 3}italic_F ∈ italic_R start_POSTSUPERSCRIPT italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT × italic_T × 3 end_POSTSUPERSCRIPT 。对于第 iiitalic_i 个查询点 piR3superscriptsuperscript3p^{i}\in R^{3}italic_p start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ∈ italic_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT ,其轨迹定义为 FiRT×3superscriptsuperscript3F^{i}\in R^{T\times 3}italic_F start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ∈ italic_R start_POSTSUPERSCRIPT italic_T × 3 end_POSTSUPERSCRIPT ,在时间 ttitalic_t 的绝对位置表示为 FtiR3subscriptsuperscriptsuperscript3F^{i}_{t}\in R^{3}italic_F start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∈ italic_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT ,其中 t=1,2,,T12t=1,2,\cdots,Titalic_t = 1 , 2 , ⋯ , italic_T 。最初, F0isuperscriptsubscript0F_{0}^{i}italic_F start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT 被设置为查询点的输入位置 pisuperscriptp^{i}italic_p start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT


我们将我们的能力称为“通用流”,以强调其在不同实体(从任何实体到任何机器人实体,例如从人类到 Franka-Emika)和物体类别(例如刚性、关节和软体)中的广泛适用性。


3 具身无关的流动预测

Refer to caption

图 2:我们的预测模型框架。我们构建管道,从 RGBD 人体视频数据集中提取通用流标签。然后,利用多种设计元素来增强预测模型的尺度意识和鲁棒性。


我们提出了一种通用流预测框架,该框架不依赖于特定的实体形式,如图 2 所示。我们首先设计了从 RGBD 人体视频数据集中提取流标签的管道。为了管理各种尺度的轨迹并考虑现实世界中的噪声,我们集成了增强模型尺度意识和预测鲁棒性的关键设计。首次,我们直接从大规模 RGBD 人体视频数据集中开发了一种语言条件下的 3D 流预测模型。


3.1 通用流标签获取


我们从两种跨实体数据集中提取通用流标签。对于刚性和关节对象,我们利用 HOI4D 数据集[15]来训练我们的通用流预测模型。这个广泛的 RGBD 视频数据集包括 16 个类别和 800 个对象,涵盖了 44.4 小时的录制内容。它提供了全面的 3D 标签,如活动对象分割、3D 姿态和相机参数。为了进一步探索软物体操作中的通用流,我们使用 RealSense D455 相机收集了“折叠衣服”任务的 RGBD 视频,包括 6 种类型的衣物、30 条轨迹和 605 个提取的片段。


从 HOI4D 数据集[15]:利用这些数据集中的详细 3D 标签,我们首先在活动对象内随机采样点,然后使用真实姿态和相机参数计算其未来位置。


从收集的 RGBD 视频中:我们首先执行人-物交互(HOI)分割[16, 17]以获得活动对象掩码。然后在掩码内采样点,并使用跟踪任意点(TAP)模型[18]追踪未来的 2D 轨迹。通过在空间和时间维度上的反投影计算一般流的 3D 标签。


为了减少注释和管道中的噪声影响,采用了多种过滤技术。此外,我们保留了手部掩码,以供训练增强时潜在使用。更多详细信息请参见附录 B。

Model ADE\downarrow FDE\downarrow PM
ResNet18 7.54 10.71 13.2
 R3M(冻结) 7.55 10.56 11.9
 R3M(微调) 7.54 10.69 11.9
VAT-MART 7.16 12.20 1.6
VIT-B-224 6.81 9.48 86.6
PointNeXt-B 3.96 5.37 4.1
PointNeXt-L 3.83 5.16 15.6
ScaleFlow-S 3.74 5.01 0.9
ScaleFlow-B 3.58 4.77 5.6
ScaleFlow-L 3.55 4.70 17.1

表 1:测试集上总体流量预测的结果。ADE 和 FDE 的单位是“厘米”。PM 指的是以百万为单位的参数。

Refer to caption



图 3:我们的模型设计架构。该模型使用 CLIP 编码器将指令转换为语义特征,并利用 PointNeXt 主干网络和条件 VAE 来捕捉不同动作轨迹的多模态性。


3.2 具有尺度感知的流预测


我们在预测相对位移而不是绝对位置时观察到性能提升。即,我们预测 Δpti=FtiFt1isuperscriptsubscriptsuperscriptsubscriptsuperscriptsubscript1\Delta p_{t}^{i}=F_{t}^{i}-F_{t-1}^{i}roman_Δ italic_p start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT = italic_F start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - italic_F start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT 而不是 FtisuperscriptsubscriptF_{t}^{i}italic_F start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT 。模型架构的插图如图 3 所示。根据第 2 节中的描述,我们首先使用 CLIP [19] 编码器将指令转换为语义特征。然后通过 MLP(减少到 dIsubscriptd_{I}italic_d start_POSTSUBSCRIPT italic_I end_POSTSUBSCRIPT 维度)来降低其维度,以与点特征对齐。我们首先将对齐后的文本特征与点云 RGB+XYZ 特征连接,然后将场景点和查询点的特征连接,形成合并的点云特征 PMR(Ns+Nq)×(3+3+dI)subscriptsuperscriptsubscriptsubscript33subscriptP_{M}\in R^{(N_{s}+N_{q})\times(3+3+d_{I})}italic_P start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT ∈ italic_R start_POSTSUPERSCRIPT ( italic_N start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT + italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT ) × ( 3 + 3 + italic_d start_POSTSUBSCRIPT italic_I end_POSTSUBSCRIPT ) end_POSTSUPERSCRIPT 。合并的特征通过 PointNeXt [20] 主干网络和分割头处理,以提取几何特征。由于人类在执行相同任务和场景时可能会有不同的动作轨迹,我们利用 VAE [21, 22] 来捕捉这种多模态特性。查询点的特征作为条件变量用于条件 VAE,生成最终预测。更多架构细节见附录 C.1。


在现实世界的流预测中,一个主要的挑战是任务内不同查询点的轨迹长度存在显著差异。例如,在“打开保险箱”任务中,门上点的轨迹比保险箱体上的点长得多。为了解决这个问题,我们应用了总长度归一化(TLN)来均匀地重新缩放轨迹。我们将每个查询点 pisuperscriptp^{i}italic_p start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT 的轨迹尺度定义为 Li=t=1TΔptisuperscriptsuperscriptsubscript1normsuperscriptsubscriptL^{i}=\sum_{t=1}^{T}||\Delta p_{t}^{i}||italic_L start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT = ∑ start_POSTSUBSCRIPT italic_t = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT | | roman_Δ italic_p start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT | | 。对于原始预测目标 {Δpti|t=1T}conditional-setsuperscriptsubscript1\{\Delta p_{t}^{i}\ |\ t=1...T\}{ roman_Δ italic_p start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT | italic_t = 1 … italic_T } ,我们将归一化目标 {Δnti}superscriptsubscript\{\Delta n_{t}^{i}\}{ roman_Δ italic_n start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } 定义为:

Δnti=ΔptiLiΔsuperscriptsubscript𝑛𝑡𝑖Δsuperscriptsubscript𝑝𝑡𝑖superscript𝐿𝑖\Delta n_{t}^{i}=\frac{\Delta p_{t}^{i}}{L^{i}}roman_Δ italic_n start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT = divide start_ARG roman_Δ italic_p start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT end_ARG start_ARG italic_L start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT end_ARG (1)


然后 VAE 分别预测尺度 LisuperscriptL^{i}italic_L start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT 和归一化轨迹 Δntisuperscriptsubscript\Delta n_{t}^{i}roman_Δ italic_n start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT 。我们的消融研究显示,与其它归一化方法相比,TLN 表现出最佳性能(附录 F.1)。


3.3 训练流量预测模型


最终的损失函数包括轨迹预测损失 traj=1Nqi,tΔn^tiΔnti2subscript1subscriptsubscriptsuperscriptnormsuperscriptsubscriptsuperscriptsubscript2\mathcal{L}_{traj}=\frac{1}{N_{q}}\sum_{i,t}||\Delta\hat{n}_{t}^{i}-\Delta n_{% t}^{i}||^{2}caligraphic_L start_POSTSUBSCRIPT italic_t italic_r italic_a italic_j end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT end_ARG ∑ start_POSTSUBSCRIPT italic_i , italic_t end_POSTSUBSCRIPT | | roman_Δ over^ start_ARG italic_n end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - roman_Δ italic_n start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT 、尺度回归损失 scale=1Nqi,tL^iLi2subscript1subscriptsubscriptsuperscriptnormsuperscriptsuperscript2\mathcal{L}_{scale}=\frac{1}{N_{q}}\sum_{i,t}||\hat{L}^{i}-L^{i}||^{2}caligraphic_L start_POSTSUBSCRIPT italic_s italic_c italic_a italic_l italic_e end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT end_ARG ∑ start_POSTSUBSCRIPT italic_i , italic_t end_POSTSUBSCRIPT | | over^ start_ARG italic_L end_ARG start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - italic_L start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT 和 VAE[21]的 KL 散度损失 KLsubscript\mathcal{L}_{KL}caligraphic_L start_POSTSUBSCRIPT italic_K italic_L end_POSTSUBSCRIPT 。为了最小化累积误差,我们还引入了恢复累积位移的 MSE 损失 acc=1Nqi,tF^tiFti2subscript1subscriptsubscriptsuperscriptnormsuperscriptsubscriptsuperscriptsubscript2\mathcal{L}_{acc}=\frac{1}{N_{q}}\sum_{i,t}||\hat{F}_{t}^{i}-F_{t}^{i}||^{2}caligraphic_L start_POSTSUBSCRIPT italic_a italic_c italic_c end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG italic_N start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT end_ARG ∑ start_POSTSUBSCRIPT italic_i , italic_t end_POSTSUBSCRIPT | | over^ start_ARG italic_F end_ARG start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - italic_F start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT 。因此,总损失表示为:

=traj+β1scale+β2KL+β3accsubscript𝑡𝑟𝑎𝑗subscript𝛽1subscript𝑠𝑐𝑎𝑙𝑒subscript𝛽2subscript𝐾𝐿subscript𝛽3subscript𝑎𝑐𝑐\mathcal{L}=\mathcal{L}_{traj}+\beta_{1}\mathcal{L}_{scale}+\beta_{2}\mathcal{% L}_{KL}+\beta_{3}\mathcal{L}_{acc}caligraphic_L = caligraphic_L start_POSTSUBSCRIPT italic_t italic_r italic_a italic_j end_POSTSUBSCRIPT + italic_β start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_s italic_c italic_a italic_l italic_e end_POSTSUBSCRIPT + italic_β start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_K italic_L end_POSTSUBSCRIPT + italic_β start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT italic_a italic_c italic_c end_POSTSUBSCRIPT (2)


鉴于在后续章节中遇到的零样本现实部署中的复杂环境挑战,我们提出了两项技术增强措施以提高零样本泛化的鲁棒性。(1) 手部遮挡增强(HMA):为了增强对实体遮挡的抗性,我们在输入场景点云中以一定概率删除手部点。(2) 查询点采样(QPS):为了适应不同应用所需的不同查询点分布,我们通过切换查询点分布来增强训练。关于增强和训练过程的更多细节,请参见附录 C.2、C.3。此外,还进行了一项消融研究,以验证所有设计元素的有效性,详见附录 F。

 3.4 评估

Refer to caption

图 4:一般流量预测的可视化。仅在人类视频数据集上训练,我们的模型能够在零样本机器人部署场景中稳健地预测一般流量。


收集的通用流数据集按照 80%、10%、10%的比例分为训练集、验证集和测试集,各集之间没有相同的对象实例。我们采用了三种类型的模型作为基线(详见附录 D)。(1) 2D 模型:ResNet[23],ViT[24],R3M[25]。(2) 点云模型:VAT-MART[10]。(3) 3D 模型:PointNeXt[20],这是 Flowbot3D[6]和 ToolFlowNet[7]中使用的 PointNet++[26]的改进版本。在后续讨论中,我们将我们的模型称为“ScaleFlow”。我们训练了多个基于 PointNeXt 的模型版本,每个版本具有不同的 PointNeXt 主干大小。


我们使用 3D 平均位移误差(ADE)和最终位移误差(FDE)以厘米为单位[27, 28]作为评估指标。对于依赖 VAE 的模型,这些指标是在 10 次采样上取平均值。表 1 中的结果显示,即使参数较少,我们的模型在所有指标上都表现出色。我们在图 4 中展示了流量预测的可视化。此外,我们的系统经过大规模训练,展现出一些显著的突现属性,如对手部遮挡的鲁棒性、语言驱动的语义控制、对标签噪声的抗性和空间尺度适应性。我们在附录 E.1 中展示了这些属性,并在附录 E.2 中的真实机器人实验中进行了验证。


零样本真实世界操作


在本节中,我们的目标是证明通用流作为下游机器人操作的可操作指导的有效性[29]。我们选择了一个最具挑战性的场景:现实世界中的零样本人类到机器人的技能转移。仅使用一个预测模型和基于闭环流预测的简单启发式策略,我们实现了令人印象深刻的 81%的平均成功率。这一成功涵盖了包括刚性、关节和软体物体在内的多个类别,并覆盖了 6 个不同场景中的 18 项任务。


4.1 启发式策略与通用流程


这里我们提出了基于闭环流预测的启发式策略(附录中的算法 1)。我们使用定位在 Franka-Emika 机械臂后面的 RealSense D455 RGBD 相机来捕捉第一视角视频流。机器人在操作过程中的静态底座作为 FastSAM 模型[17]分割机器人的参考。也可以通过设计的 GUI 添加更多的提示点。分割后,我们重建 3D 场景点云,并选择靠近夹爪的查询点。这些查询点被视为微型刚体,与场景点云和文本指令一起输入我们的模型以预测整体流动。


下一步涉及根据一般流预测解决相应的变换问题,即 ICP(迭代最近点)问题。我们采用 SVD(奇异值分解)算法[30]来将机器人臂的末端执行器变换与预测的流对齐。选择 SVD 的原因在于它在处理噪声和异常值方面的鲁棒性,以及其计算效率。一旦计算出对齐的变换,我们使用 Deoxys 库[31]作为操作空间中的阻抗控制器来准确执行变换。更多关于部署系统和策略推导的细节请参见附录 G.3 和附录 G.4。

Refer to caption

图 5:我们在现实世界中实现了稳定的零样本人类到机器人的技能转移,涵盖了 6 个场景中的 18 项任务,涉及刚性、关节和软物体。


4.2 实际实验设置


对于现实世界的实验(图 5 和附录 G.1),我们选择了 6 个场景中的 8 个对象(包括刚体、关节体和软体),涵盖了 18 个操作任务。刚体类别包括杯子和玩具车。关节体对象是保险箱、盒子(可以近似视为保险箱的一种非典型设计)、笔记本电脑、冰箱和抽屉,而软体类别包括衣物。我们对刚体执行“拾起”和“放下”动作,对玩具车额外执行“推动”动作。关节体对象进行“打开”和“关闭”任务,软体对象则进行“折叠”动作。(请参见附录 G.1 中的图 10、11 以获得可视化)。所有对象类别(除了盒子)和操作任务都出现在训练数据中。除了“玩具车”和“保险箱”,所有其他对象都是模型训练的新实例。为了展示我们模型的泛化能力,我们随机构建了环境背景,确保所有评估设置在训练期间均未见过。


作为一般流动适应性指导抓取后的运动,我们手动定位机械臂以启动任务。这可以用自动方法替代,如 Ko 等人[32]所展示的那样。对于带有把手的储物家具,我们评估了开合状态下的夹爪性能。每个任务进行 10 次试验,并记录成功率。每项任务的定量成功标准讨论见附录 G.1。我们还在附录 G.2 中讨论了现实世界的基准模型[11]。

 4.3 结果与分析

 对象  行动-1 SR-1  行动-2 SR-2  行动-3 SR-3
 杯子  皮卡 10/10  放下 9/10 - -
 玩具车  捡起 10/10  放下 10/10   5/10
 衣服  折叠 8/10 - - - -
 安全  打开 9/10  关闭 10/10 - -
 盒子  打开 10/10  关闭 10/10 - -
 抽屉  打开(拉) 4/10  打开(握住) 3/10  关闭 10/10
 冰箱  打开(拉开) 7/10  打开(握持) 9/10  关闭 10/10
 笔记本电脑  打开 5/10  关闭 7/10 - -
 平均成功率 81% (146 / 180)

表 2:使用单一模型进行所有任务的实际操作结果。“SR”表示成功率。对于“储物家具”的“打开”任务,“拉”表示用张开的夹爪以拉的方式执行,而“抓”则是用闭合的夹爪抓住把手。


在结果分析中,我们关注以下关键词并提出以下问题:


  • • 转移能力:通用流程是否有助于稳定的零样本人类到机器人的转移?

  • • 分割错误:系统对机器人分割错误的鲁棒性如何?

  • • 新颖形状:该模型能否推广到与训练实例显著不同的新类别的形状?

  • • 抓取方式:这个以物体为中心的系统对抓取方式的变化是否稳健?

  • • 多样化场景:通用流程在不同场景和设置中的适应性如何?


图 5 展示了我们分析分布的全面概述。接下来,我们将进行详细的定量和定性检查以解决这些问题。


稳定零样本技能迁移 我们在表 2 中展示的结果表明,使用通用流作为桥梁使我们的框架能够实现稳定的零样本人类到机器人的技能迁移。在如此具有挑战性的设置下,高达 81%的成功率强调了通用流在跨实体机器人学习中的强大迁移能力。据我们所知,这是第一个在现实世界实验中达到这种零样本迁移性能水平的基于流的工作。对于成功率低于 60%的任务,我们在附录 G.6 中仔细分析了原因并提出了可行的未来解决方案。我们还在附录 G.5 中讨论了我们系统的推理延迟。


对分割错误的鲁棒性 我们的研究结果表明,在训练过程中使用随机手部掩模增强显著提高了模型对 FastSAM [17] 分割图中错误的鲁棒性。图 5(a)通过两个例子展示了这一优势。值得注意的是,即使在机器人分割几乎失败的情况下(如“打开保险箱”任务),我们的方法仍然能够预测有意义的流以促进闭环方式的任务完成。


为了探究通用流的泛化能力边界,我们使用了一个可以近似视为“保险箱”的非典型设计的“盒子”类别进行实验。为了对比,我们还测试了一个传统的“保险箱”。图 5(b)展示了这些实例。令人惊讶的是,“盒子”的操作成功率甚至高于普通保险箱(“打开”任务的成功率为 100%对 90%,见表 2),这归因于“盒子”的结构允许更大的轨迹偏差而不会使夹爪脱离门。这强调了通用流方法的强大泛化能力。


对抓取位置和方式的鲁棒性 由于一般流是一种与实体无关且以对象为中心的方法,因此预计它对夹爪位置和抓取方式的变化具有弹性。为了测试这一点,我们使用两个存储件(一个冰箱和一个抽屉)进行操作,利用它们的把手采用不同的抓取方法。图 5(c)显示了这些不同的执行方式。我们的模型无论夹爪的状态如何都能成功完成任务。


处理多样场景和方向 我们研究通用流在多大程度上能够应对场景和方向的变化。我们在六个不同的场景中分配任务,并进行基于场景的预测,消除了对操作对象进行干净分割的需要。我们还在实验中改变了可移动物体的方向。图 5(d)展示了这方面最具挑战性的例子。我们发现,我们的启发式策略在一定程度上成功地将玩具车推向了不同方向。

 5 相关工作


具身不可知框架用于可扩展的机器人学习 我们在附录 H 中讨论更多关于现实世界通用机器人学习的相关工作。为了利用大规模、跨具身的数据资源[33, 34, 35, 15, 36],提出了多个具身不可知框架[37]用于机器人学习。先前的工作[25, 38, 39, 40]采用大规模视觉预训练来开发具身感知的预训练表示,但这些方法表现出有限的泛化能力[41, 42, 43]。替代方法试图从视频生成中提取动作信号[44, 45, 46, 47, 48, 32, 49]。从模拟器中提取的可操作性[10, 50, 51, 52, 53]是另一个焦点,但它们在 3D 环境中特别难以解决显著的模拟到现实领域的差距。最近的努力[54, 11, 55, 56]尝试直接从人类视频中获取几何感知的结构信息,但需要实验室内的训练或性能不稳定。相反,我们利用基于 3D 流的可操作性来实现可靠的零样本解决方案。


关键点和流用于机器人学习系统。以往的研究使用流作为机器人学习的动作描述符[57, 58, 59, 60, 61]。然而,这些方法要么依赖于特定实体的数据,限制了其可扩展性[9, 7],要么基于模拟,由于现实世界 RGBD 点云生成的不完善而面临显著的模拟到现实领域差距[6, 8]。Wen 等人[62]和 Bharadhwaj 等人[63]利用流作为预训练的预测目标,但仅在 2D 流中操作,并需要领域内微调。在本文中,我们将 Seita 等人[7]的工作扩展为一个更通用的版本,无论是在数据资源还是下游应用方面。我们直接从 RGBD 人类视频数据集中获取 3D 流预测,并实现稳定的零样本技能迁移。

 6 结论


在这篇论文中,我们介绍了作为可扩展机器人学习基础的通用流。我们首次从大规模 RGBD 人类视频数据集中直接开发了流预测模型,并成功地将其与启发式策略结合,实现了稳定的零样本人类到机器人的技能转移。我们的框架标志着在同时实现可扩展性、广泛应用和稳定技能转移方面迈出了重要一步。我们相信,我们的工作为可扩展通用机器人学习的创新研究铺平了道路。我们在附录 I 中全面讨论了我们框架的局限性。

 致谢


本工作得到了中华人民共和国科学技术部“新一代人工智能”2030 重大创新项目(资助号:2021AAA0150000)的支持。本工作还得到了中国国家重点研发计划(2022ZD0161700)的支持。

 附录


附录 A 附录概述


在本附录中,我们提供了额外的实现细节和一般流程的讨论。标签管道、代码和模型权重将在未来发布。读者也可以通过它们查看更多详细信息。本附录的结构如下:


  • • 标签提取:我们在附录 B 中深入探讨了从 RGBD 人体视频数据集中提取通用流程标签所使用的管道细节。

  • • 模型架构和训练:我们深入介绍了模型的架构(附录 C.1)、增强技术(附录 C.2)和训练过程(附录 C.3)。

  • • 基线:我们在附录 D 中提供了更多关于基线的详细信息

  • • 一般流的涌现特性:我们在附录 E.1 中展示了通过大规模训练得到的一般流的涌现特性。我们还在附录 E.2 中通过真实机器人实验验证了这些特性。

  • • 消融研究:在附录 F 中进行了全面的定量消融研究,严格测试了我们算法设计的有效性。

  • • 实际实验:本节致力于详细说明实际实验,包括实验设置(附录 G.1)、实际基线比较(附录 G.2)、机器人系统开发(附录 G.3)、策略推导方法(附录 G.4)、推理延迟测量(附录 G.5)和失败案例分析(附录 G.6)。

  • • 现实世界通用机器人学习的相关工作:我们在附录 H 中进一步讨论了通用机器人策略训练的相关工作。

  • • 限制:我们在附录 I 中全面讨论了当前框架的限制,包括数据多样性、策略骨干、手动抓取、表示格式和启发式策略。

  • • 代码库:在附录 J 中,对多个对本项目支持至关重要的代码库表示感谢。


更多视频和流可视化内容请访问 https://general-flow.github.io。


附录 B 标签提取管道


通用流标签可以直接从 3D 人体数据集或 RGBD 视频中提取。图 B.2 展示了一些我们利用的数据资源。

 B.1 从 HOI4D 数据集


我们选择 HOI4D 数据集[15]作为我们的主要资源,因其相对较大的规模。该数据集提供了全面的 3D 标签,这对于支持 4D(点云+时间戳)人-物交互(HOI)研究至关重要。我们使用的标签包括 RGBD 图像、相机参数、物体姿态标签、场景分割掩码和动作标签。


为了实现有效的闭环控制,我们将原始动作片段划分为多个 1.5 秒的子片段,间隔为 0.15 秒,总共有 3 个时间步。对于包含非接触前缀动作(如向物体移动手)的子片段,我们在无语义前缀内创建 4 个扩展子片段。


模型的输入来自每个子片段的第一张图像。我们从指令中识别并匹配关键元素(涉及操作的物体和手)及其对应的掩码,其余部分被视为背景掩码。每个掩码都从 RGBD 值转换为点云,并下采样到每 0.02 厘米体素一个点。为了调整 HOI4D 掩码中的噪声,我们将手掩码扩展 8 个像素,并将物体掩码缩小 2 个像素。


我们接着提取通用流标签。初始查询点在感兴趣对象的掩模内选择。为了解决分割噪声,我们仅保留来自前一帧、当前帧和后续帧的重叠掩模,使用同源矩阵将其投影到当前帧上。这些点是随机选择的,它们的未来轨迹是根据真实姿态计算的。我们使用相机参数标签将所有数据重新投影回初始帧。为了纠正外部参数标签中的相机抖动,我们识别出位移小于 0.02 厘米的轨迹,计算其平均值作为相机抖动,并从所有点中减去这个值。


B.2 从收集的 RGBD 视频中


鉴于当前 RGBD 人-物交互(HOI)数据集的限制,这些数据集要么规模较小[34],要么缺乏语义丰富性[36](主要限于拾取和放置动作),并且考虑到软物体资源的显著稀缺性,我们选择收集自己的 RGBD 视频。我们的“折叠衣物”任务的 RGBD 视频集合是使用 D455 深度相机捕获的,包括 6 种不同类型衣物的 30 次实验,共提取了 605 个片段。我们计划在未来发布这个数据集。


借鉴 HOI4D 中使用的过程,我们为每个片段保持 1.5 秒的持续时间,间隔为 0.15 秒。最初,我们应用 HOI 分割[64]以获取手和活动对象的掩码。利用来自[16]的 HOI 检测结果,我们将边界框输出输入到 FastSAM[17]中以获得更精细的结果。我们仅保留置信度高于 0.5 的掩码以进行后续处理。分割后,我们在活动对象上随机采样 1024 个点,并使用 co-tracker[18]跟踪它们在 2D 像素空间中的未来位置。我们排除了受遮挡、消失或深度值中途断裂影响的轨迹,并将剩余轨迹投影回 3D 空间和片段的第一帧,以得出最终的通用流标签。


我们的管道功能自动运行,无需人工干预。随着通用流捕获物理世界的几何动态,超越了单纯的以对象为中心的交互,我们的系统有效地管理了诸如分割和点采样错误(例如,由于分割错误而在非目标对象上选择查询点)等噪声因素,特别是在大规模训练期间。

Refer to caption

图 6:我们跨体现数据资源的示例。

Refer to caption



图 7:实际部署设置。


附录 C 模型架构和训练

 C.1 架构


虽然本文的主要部分涵盖了我们的设计的大部分内容,但我们在本节中提供了更多细节。CLIP [19] 文本特征的对齐宽度设置为 6,与原始点云特征(RGB+XYZ)的维度保持一致。在条件变分自编码器 (VAE) [21] 部分,我们使用了两层多层感知机 (MLP) 来编码潜在变量。随后是另一个两层 MLP,作为 VAE 解码器。我们分别使用两层 MLP 进行尺度和归一化轨迹预测,每个 MLP 的隐藏层维度为 512。对于 ScaleFlow-B,我们的骨干配置与 PointNeXt-B [20] 相同。在 ScaleFlow-L 中,我们将骨干宽度从 32 增加到 64。相反,在 ScaleFlow-S 中,PointNeXt-B 被替换为 PointNeXt-S,并且 CVAE 使用更简单的单层编码器和解码器,每个的隐藏层维度为 384。损失函数参数配置为 β1=25subscript125\beta_{1}=25italic_β start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 25β2,β3=1subscript2subscript31\beta_{2},\beta_{3}=1italic_β start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_β start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT = 1 ,重点在于提高尺度预测。我们保持潜在变量的维度为 16。如需更多信息,请参阅我们代码仓库中的配置文件。


C.2 增强技术


鉴于在零样本现实部署中遇到的复杂环境挑战,我们提出了两项技术增强措施以提高零样本泛化的鲁棒性。基本概念涉及模拟手部遮挡的各种状态和查询点的分布,迫使模型适应多种条件:


  • • 手部遮挡(HM)增强:在训练数据中,我们遇到了来自人类手部的遮挡,而在部署过程中则会遇到来自机械臂的遮挡。因此,增强模型对实体遮挡的鲁棒性至关重要。为此,我们操纵输入场景点云中手部点的存在。我们选择以下三种规则之一,概率分别为 ph1subscript1p_{h1}italic_p start_POSTSUBSCRIPT italic_h 1 end_POSTSUBSCRIPT =0.5, ph2subscript2p_{h2}italic_p start_POSTSUBSCRIPT italic_h 2 end_POSTSUBSCRIPT =0.2 和 ph3subscript3p_{h3}italic_p start_POSTSUBSCRIPT italic_h 3 end_POSTSUBSCRIPT =0.3:(1) 删除所有手部点;(2) 保留所有手部点;(3) 在手上随机选择一个锚点,并仅保留距离该锚点超过 12 厘米的点。这三条规则旨在模拟执行过程中夹爪无遮挡、完全遮挡和部分遮挡的情况。

  • • 查询点采样(QPS)增强:不同的下游应用可能需要不同的查询点采样方法。因此,我们的模型必须能够适应各种查询点分布。我们通过增强训练过程来实现这一点。在每次训练迭代中,我们根据概率 ps1subscript1p_{s1}italic_p start_POSTSUBSCRIPT italic_s 1 end_POSTSUBSCRIPT =0.7, ps2subscript2p_{s2}italic_p start_POSTSUBSCRIPT italic_s 2 end_POSTSUBSCRIPT =0.3 选择两种规则之一来选取可用查询点的子集:(1) 完全随机采样;(2) 随机选择一个锚点查询点,然后选择与该锚点最近的特定数量的点。完全随机采样确保所有点都被覆盖,而基于锚点的采样则保持了更符合下游动作指导生成格式的结构。

 C.3 培训详情


对于诸如‘开保险箱’这样的技能,大多数查询点是静态的(例如,保险箱体上的点),直接模型训练会导致预测静止轨迹的强烈偏差。这源于我们数据集中的比例失衡。为了解决这个问题,我们在整个数据集中实施比例再平衡。首先,我们使用 K-均值算法按比例 LisuperscriptL^{i}italic_L start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT 对每个数据点的一般流动进行聚类。因此,我们获得了 NrsubscriptN_{r}italic_N start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT 个 3D 点的聚类。我们将每个聚类的原始点比例表示为 {ri|i=1..Nr}\{r_{i}\ |\ i=1..N_{r}\}{ italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT | italic_i = 1 . . italic_N start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT } 。除了点数最多的聚类外,我们对所有其他聚类进行重采样。重采样的分布由以下给出:

r~i=eri/τi=1Nreri/τsubscript~𝑟𝑖superscript𝑒subscript𝑟𝑖𝜏superscriptsubscript𝑖1subscript𝑁𝑟superscript𝑒subscript𝑟𝑖𝜏\tilde{r}_{i}=\frac{e^{r_{i}/\tau}}{\sum_{i=1}^{N_{r}}e^{r_{i}/\tau}}over~ start_ARG italic_r end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = divide start_ARG italic_e start_POSTSUPERSCRIPT italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT / italic_τ end_POSTSUPERSCRIPT end_ARG start_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT end_POSTSUPERSCRIPT italic_e start_POSTSUPERSCRIPT italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT / italic_τ end_POSTSUPERSCRIPT end_ARG (3)


比原始分布更平滑。默认情况下,我们将 τ\tauitalic_τ 设置为 1。


我们使用 1.5 秒的视频片段作为训练数据,并将所有数据源的一般流的时间步长设置为 3。数据集按照 80%、10%、10%的比例分为训练集、验证集和测试集,分别包含 51693、6950 和 6835 个片段,且各集合之间没有相同的对象实例。每个样本由 2048 个场景点组成,这些点在流动起点中心周围的 80 ×\times× 80 ×\times× 80 cm3superscript3cm^{3}italic_c italic_m start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT 立方空间中使用最远点采样(FPS)算法采样(40 厘米的感知范围足以应对大多数任务)。在训练期间,我们随机采样 128 个查询点,而在验证时,则随机采样 512 个点。应用了标准的点云预测增强技术[20],包括随机旋转、平移、缩放、坐标归一化、颜色抖动和特征丢弃。


在每个训练迭代中,我们从可用的流标签中随机选择 128 个轨迹。此外,为了增强下游零样本预测的鲁棒性,我们实现了主论文中描述的技术增强。对于比例再平衡,我们将聚类数量设置为 4,默认温度设置为 1。训练过程使用 AdamW 优化器,学习率为 0.001,权重衰减为 0.0001。我们纳入了 10 个预热周期,随后是 200 个周期的余弦调度器。使用 Intel(R) Xeon(R) Gold 5220R CPU 和单个 NVIDIA GeForce RTX 3090 GPU,ScaleFlow-B 的训练可以在 10 小时内完成。


鉴于我们的数据集包含对象部分的真值标签,在测试时,我们在每个部分均匀分布 512 个查询点以提高评估效果。需要注意的是,我们在模型验证和实际测试中不使用任何部分标签。

 附录 D 基线


我们将三类相关工作适应到我们的设置中:


  • • 2D 模型:为了研究 3D 几何信息的重要性,我们使用了来自 timm [65] 库的预训练 ResNet [23] 和 Vision Transformer (VIT) [24] 模型作为特征提取器。我们对这些模型进行了微调,将它们的 2D 视觉特征与对齐的文本特征结合,并通过 MLP 进行直接流回归。我们还评估了 R3M 表示 [25] 的性能。R3M 的微调和冻结模式都被考虑在内。

  • • VAT-MART [10]:该模型最初设计用于预测单点接触的可用性,现已适应我们的设置。我们仅使用 VAT-MART 的 3D 轨迹预测分支,用对齐的文本特征替换其任务标识符,同时保持模型的其余部分不变。

  • • 3D 主干网络:FlowBot3D [6] 和 ToolFlowNet [7] 与我们的问题设定相似。它们最初在没有语言监督的情况下使用了普通的 PointNet++ [26] 进行仿真中的流预测。为了公平比较,我们实现了一个改进版本,用更强的 PointNeXt [20] 主干网络替换了 PointNet++ 作为几何特征提取器。提取的特征与对齐的文本特征结合后,通过 MLP 进行通用流回归处理。


我们保留了原始存储库的架构,唯一的修改是在预测 MLP 之前加入文本特征,将模型转换为多模态版本。这些文本特征是从原始 CLIP 特征中提取的,并且其维度设置为 32。对于 ResNet [23]和视觉 Transformer [24],我们分别使用标准的‘ResNet18’和‘VIT-B-224’版本。默认的预训练权重是通过 Timm 库[65]加载的。对于 R3M [25],使用的是其‘ResNet18’版本。在我们的架构中,所有用于最终流预测的 MLP 都包含 2 层,隐藏层维度分别为 512 和 256。为了确保公平比较,对所有基线模型应用了尺度再平衡、HMA 增强和 QPS 增强。


附录 E 一般流的涌现特性

Model ADE\downarrow FDE\downarrow ADE-H\downarrow FDE-H\downarrow Param (M)
ScaleFlow-S 3.74 5.01 3.72 4.98 0.906
ScaleFlow-B 3.58 4.77 3.56 4.74 5.622
ScaleFlow-L 3.55 4.70 3.52 4.67 17.088

表 3:测试集上一般流量预测的结果。“ADE-H”和“FDE-H”表示在模型输入中包含手部点的评估(单位为米)。通过适当的增强,我们的模型对于手部占用具有鲁棒性。

 E.1 属性分析


在本节中,我们展示了通用流的显著涌现特性,如对遮挡手部的鲁棒性、语言驱动的语义控制、对标签噪声的韧性以及空间尺度适应性。


手部遮挡的鲁棒性 我们首先测试了所有 3D 模型在输入中对手部占用的鲁棒性,这些模型用 ADE-H 和 FDE-H 表示(包括模型输入中的手部点的评估)。如表 3 所示,通过适当的增强,我们的模型对对手部占用具有鲁棒性。


通过大规模训练,我们的模型不仅捕捉了丰富的语义信息,还能够通过语言模态进行灵活控制。如图 8(a)(b)所示,当提供不同的指令时,我们的模型展示了对相同输入点云预测不同流动的能力。


对标签噪声的鲁棒性此外,它对标签噪声表现出显著的鲁棒性。图 8(c)(d)展示了这种鲁棒性的两个实例:尽管存在严重的标签噪声(“打开保险箱”中的显著偏差和“捡起玩具车”中的近乎静态),我们的模型仍能准确预测正确的趋势。


进行尺度空间适应。此外,我们的模型可以通过可扩展的训练执行尺度空间适应。它根据物体的空间关系动态调整其预测尺度,例如在桌子结束时和在更长的距离上扩大比例,如图 8(e)(f)所示。所有这些新兴现象都揭示了大规模训练的好处。

Refer to caption

图 8:展示了通用流预测的涌现特性。箭头指示预测流的大致方向。(a) 和 (b) 图像使用相同的输入,仅文本指令不同。(c) 和 (d) 中,红色代表提取的标签,绿色表示模型的预测。(e) 和 (f) 中,“avg”表示所有查询点的平均轨迹长度。

 E.2 实际机器人验证


我们还通过真实的机器人实验验证了预测属性。我们在真实的机器人环境中确认了“放下杯子”任务中的“尺度空间适应”现象,如图 9 右侧所示。


然后,我们展示了模型在语言控制下的多语义动作生成能力。我们选择了“抽屉”、“冰箱”和“杯子”作为操作对象,设置它们的初始状态相同,只改变任务执行的指令动词。这些结果如图 9 左侧所示,说明了语言指令能够实现在同一场景中执行多种行为。

Refer to caption

图 9:(左)通过语言指令在真实机器人中演示动作语义控制的实验。通过输入不同的指令动词,同时保持“抽屉”、“冰箱”和“杯子”的初始状态一致,机器人能够执行正确的语义动作。(右)真实机器人演示展示了尺度空间适应现象。对于相同的任务“放下杯子”,我们的模型预测的尺度会根据杯子的位置进行调整,对于较高位置的平均值为 19.04 厘米,较低位置的平均值为 5.94 厘米。

 附录 F 消融研究


F.1 数据集实验设置


我们进行消融研究以评估我们方法的关键设计元素。测试的变体包括:


  • • 无文本 EarlyFusion:对齐的文本特征与 PointNeXt 特征(维度为 32)连接,而不是原始点云。

  • • 无尺度归一化:条件变分自编码器(CVAE)在没有尺度归一化的情况下预测一般流。我们探索了两个版本:一个使用绝对位置预测,另一个使用相对位移预测。

  • • w TDN 尺度归一化:这种方法采用归一化来将绝对位移的长度调整为 1,而不是总长度。

  • • w SDN 缩放归一化:归一化用于将每一步的长度设置为 1。

  • • w β1=1subscript11\beta_{1}=1italic_β start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 1 (尺度损失的权重):此测试旨在评估在损失函数中适当加权尺度预测的重要性。

  • • 无中心裁剪:所有场景点云在一个 2 米的操作空间内被输入模型,无需立方体空间裁剪。在这种设置下,活动对象点的平均比例仅为约 2%。

  • • 无鲁棒性增强:这些变体省略了三种技术增强(比例重平衡、手部遮罩增强、查询点采样增强),以确定它们对模型在我们基准测试中的预测准确性的影响。


消融研究的结果总结在表 4 中。除了没有鲁棒性增强的变体外,所有变体的模型性能都有明显的下降。关于三种技术增强的消融,很明显它们不会对基准性能产生负面影响。值得注意的是,手部遮挡增强甚至显著提高了领域内预测,这是一个有趣的观察结果。

 测试-不良事件(无手)  测试-FDE(无手)
 完整 3.58 4.77
 无文本早期融合 3.70 4.95

无比例归一化(相对)
3.76 5.04

无比例归一化(绝对值)
3.81 5.12

带有 TDN 尺度归一化
3.74 5.00

带有 SDN 规模规范化
3.77 5.10

w/ β1=1subscript11\beta_{1}=1italic_β start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 1 (scale loss 的权重)
3.68 4.93
 无中心裁剪 3.99 5.38
 无比例再平衡 3.59 4.78
 无 HMA 增强 3.66 4.88
 无 QPS 增强 3.58 4.77

表 4:一般流量预测的消融研究结果,最佳结果以粗体突出显示,次佳结果以下划线表示。所有指标的单位为米。


F.2 真实机器人消融研究

 打开保险箱  关闭抽屉  平均值
 完整 9 / 10 10 / 10 95%
 无比例再平衡 7 / 10 8 / 10 75%
 无 HMA 增强 8 / 10 6 / 10 70%
 无 QPS 增强 5 / 10 4 / 10 45%

表 5:真实机器人消融研究的结果。我们以成功率作为评估指标。


我们还通过真实机器人的消融研究调查了设计的增强在提高零样本迁移鲁棒性方面的作用。我们选择了两个代表性任务(“打开保险箱”和“关闭抽屉”)进行评估。消融比较包括:


  • • 无比例重新平衡:使用原始流标签,不基于比例集群结果进行重新平衡。

  • • 无 HM 增强:设置 ph1=1.0subscript11.0p_{h1}=1.0italic_p start_POSTSUBSCRIPT italic_h 1 end_POSTSUBSCRIPT = 1.0 ,这意味着在整个训练过程中擦除手上的所有点。

  • • 无 QPS 增强:设置 ps1=1.0subscript11.0p_{s1}=1.0italic_p start_POSTSUBSCRIPT italic_s 1 end_POSTSUBSCRIPT = 1.0 ,这意味着仅依赖随机抽样来选择训练查询点。


表 5 的结果表明,每种增强都显著地有助于稳健的零样本执行。


值得注意的是,手部增强显著影响了具有大量实体占用和遮挡的任务,例如“关闭抽屉”。查询点采样增强显得尤为重要。目前,PointNeXt [20] 架构内在地结合了查询点特征的提取,导致我们的框架依赖于查询点采样增强。我们预计,未来 3D 学习中解耦架构的进展将彻底解决这一问题。


附录 G 实际机器人实验


G.1 真实环境设置


在我们的现实世界实验(图 10)中,我们选择了 8 个对象,包括刚体、关节体和软体,这些对象在我们的人类视频资源中有所展示。我们为每个对象手动定义了多个任务及其相应的成功条件,总共产生了 18 个不同的任务。关于这些任务的完整列表,请参阅主论文中的内容(第六节 B 部分)。对于“冰箱”和“抽屉”,我们在说明中将它们称为“储物家具”。“盒子”也被称为“保险箱”,因为它可以被视为“保险箱”的非典型设计的近似。

Refer to caption

图 10:此图展示了 18 个任务中 8 个对象的分布,涵盖了刚体、关节体和软体等多种类别,并排列成 6 个不同的场景。操作的对象在黄色边界框内突出显示,每个对应的任务用绿色框表示。


这些对象被安排成 6 个场景,如图 10 所示。对于可移动的对象,例如“杯子”和“玩具车”,我们随机调整它们的位置和方向以增加变异性。值得注意的是,我们的实验设置比 Eisner 等人[6]的先前研究更准确地反映了实际现实情况。我们的设置具有多样化的场景,并消除了对干净物体分割的需求(图 11 的左侧)。这种相似性突显了我们的系统在现实世界情景中的稳健性和稳定性。


任务成功完成的标准各不相同。对于“拾起”和“推”任务,如果物体沿正确方向移动超过 15 厘米则视为成功。“放置”动作如果最终将物体放在桌面上且物体的方向合适(例如,杯子的口朝上垂直),则视为成功。对于旋转关节结构的“打开”任务,开度达到 80 度即视为成功。对于其“关闭”任务,将物体带到完全关闭状态的 5 度以内则视为成功。对于棱柱结构,使用 5 厘米(到完全打开或关闭状态)作为标准。“折叠”任务如果衣物的一端能够到达另一端,则视为成功。

 G.2 现实世界基线

Refer to caption

图 11:(左)我们的环境设置比之前的工作[6]更接近实际的现实情况。(右)我们的基线模型[11]在现实世界中的可操作性预测。接地模块的文本提示设置为“安全”和“抽屉”。


据我们所知,Bahl 等人[11]是唯一一个与我们的设置相似的开源工作,该工作涉及直接从现实世界的人类视频中学习低级可操作性模型,并能够进行零样本预测。我们在实验环境中部署了此模型,使用“安全”和“抽屉”作为接地模块[66]的文本提示。图 11 右侧显示了可操作性预测的可视化结果。尽管它在某种程度上提供了语义上有意义的预测,但它受到以下限制:(1) 对于准确的运动方向预测,泛化能力不足;(2) 仅提供没有深度信息的 2D 指导;(3) 身体遮挡导致的显著干扰。由于预测的抓取后轨迹未能提供足够的 3D 指导以支持闭环执行,我们避免进一步的机器人执行试验。


算法 1 从一般流程中得出的启发式闭环策略

0: 任务指令 IIitalic_I ,摄像头流 𝒞\mathcal{C}caligraphic_C ,预训练的 FastSAM 模型 segsubscript\mathcal{M}_{seg}caligraphic_M start_POSTSUBSCRIPT italic_s italic_e italic_g end_POSTSUBSCRIPT ,预训练的通用流预测器 flowsubscript\mathcal{M}_{flow}caligraphic_M start_POSTSUBSCRIPT italic_f italic_l italic_o italic_w end_POSTSUBSCRIPT ,操作空间控制器 controlsubscript\mathcal{M}_{control}caligraphic_M start_POSTSUBSCRIPT italic_c italic_o italic_n italic_t italic_r italic_o italic_l end_POSTSUBSCRIPT

pbasesubscriptabsentp_{base}\leftarrowitalic_p start_POSTSUBSCRIPT italic_b italic_a italic_s italic_e end_POSTSUBSCRIPT ← Franka-Emika 底座的 2D 位置

pextrasubscriptabsentp_{extra}\leftarrowitalic_p start_POSTSUBSCRIPT italic_e italic_x italic_t italic_r italic_a end_POSTSUBSCRIPT ← 用户界面(可选)
 重复
     Orgbd𝒞subscript𝑂𝑟𝑔𝑏𝑑𝒞O_{rgbd}\leftarrow\mathcal{C}italic_O start_POSTSUBSCRIPT italic_r italic_g italic_b italic_d end_POSTSUBSCRIPT ← caligraphic_C

Osegseg(OrgbdO_{seg}\leftarrow\mathcal{M}_{seg}(O_{rgbd}italic_O start_POSTSUBSCRIPT italic_s italic_e italic_g end_POSTSUBSCRIPT ← caligraphic_M start_POSTSUBSCRIPT italic_s italic_e italic_g end_POSTSUBSCRIPT ( italic_O start_POSTSUBSCRIPT italic_r italic_g italic_b italic_d end_POSTSUBSCRIPT , 提示= [pbase,pextra])[p_{base},p_{extra}])[ italic_p start_POSTSUBSCRIPT italic_b italic_a italic_s italic_e end_POSTSUBSCRIPT , italic_p start_POSTSUBSCRIPT italic_e italic_x italic_t italic_r italic_a end_POSTSUBSCRIPT ] )

恢复点云 PsceneBackProject(Oseg)subscriptsubscriptP_{scene}\leftarrow BackProject(O_{seg})italic_P start_POSTSUBSCRIPT italic_s italic_c italic_e italic_n italic_e end_POSTSUBSCRIPT ← italic_B italic_a italic_c italic_k italic_P italic_r italic_o italic_j italic_e italic_c italic_t ( italic_O start_POSTSUBSCRIPT italic_s italic_e italic_g end_POSTSUBSCRIPT )
 夹爪位置 gcontrolsubscriptg\leftarrow\mathcal{M}_{control}italic_g ← caligraphic_M start_POSTSUBSCRIPT italic_c italic_o italic_n italic_t italic_r italic_o italic_l end_POSTSUBSCRIPT

查询点 QRadius(Pscene,g,10Q\leftarrow Radius(P_{scene},g,10italic_Q ← italic_R italic_a italic_d italic_i italic_u italic_s ( italic_P start_POSTSUBSCRIPT italic_s italic_c italic_e italic_n italic_e end_POSTSUBSCRIPT , italic_g , 10 厘米 )))
 通用流程 Fflow(Pscene,Q,I)subscriptsubscriptF\leftarrow\mathcal{M}_{flow}(P_{scene},Q,I)italic_F ← caligraphic_M start_POSTSUBSCRIPT italic_f italic_l italic_o italic_w end_POSTSUBSCRIPT ( italic_P start_POSTSUBSCRIPT italic_s italic_c italic_e italic_n italic_e end_POSTSUBSCRIPT , italic_Q , italic_I )

SE(3) 变换 𝒯absent\mathcal{T}\leftarrowcaligraphic_T ← SVD 对齐 (F)(F)( italic_F )
 执行: control(𝒯)subscript\mathcal{M}_{control}(\mathcal{T})caligraphic_M start_POSTSUBSCRIPT italic_c italic_o italic_n italic_t italic_r italic_o italic_l end_POSTSUBSCRIPT ( caligraphic_T )

直到任务完成或失败


G.3 机器人系统的开发


基于闭环流预测的启发式策略在算法 1 中展示。图 7 展示了我们实际部署设置的一个快照。我们使用 RealSense D455 RGBD 相机以 1280×720 的分辨率捕捉点云流,这低于 HOI4D [15] 中使用的 1920×1080 分辨率。因此,在部署过程中,我们选择 0.01 厘米的体素下采样,而模型训练时使用的是 0.02 厘米。我们相机-机器人系统的校准参数为:方向参数(qw=0.911, qx=-0.015, qy=0.410, qz=-0.032),位置参数(x=-0.265, y=0.260, z=1.095)。这种配置模仿了人类第一视角的操作视角,不仅有助于最小化推理域差距,还符合移动机器人在实际应用中的需求。我们使用 RealSense 相机的 ROS 驱动程序进行数据采集。


机器人的基座在操作过程中保持静止,作为 FastSAM [17] 模型进行机器人分割的提示。为了提高准确性,可以使用更多的提示点或定制模型 [37]。分割后,我们重建 3D 场景点云,并选择距离夹爪 10 厘米以内的查询点。这些点与场景点云和文本指令一起输入到我们的预测模型(实验中使用的是 ScaleFlow-B)中,以获得预期的总体流动。然后,我们应用 SVD 算法 [30] 来获得与预测流动对齐的稳健变换。机器人臂由 Deoxys 库 [31] 驱动,以闭环方式遵循派生的 SE(3)变换,实现 0.4 秒的推理延迟(没有 FastSAM 时为 0.05 秒)。


在实际应用中,我们注意到 Deoxys 的操作空间中的 6 自由度控制器在微小距离上缺乏必要的控制精度。因此,对于小于 5 厘米的轨迹,我们采用将所有步骤合并为一步并将这一步统一缩放至 5 厘米长度的策略。这种方法显著提高了短距离的控制精度,提升了系统的整体效能和效率。大约 25%的预测激活了这一变通方法,鉴于大多数任务不需要高灵巧性,这被认为是可接受的。未来的改进可能包括更精确的控制器和校准。我们的 ROS 系统的循环频率设置为 20 赫兹。为了安全起见,我们手动确认每个规划步骤,尽管我们发现这几乎不必要,因为所有实验都能连续进行按压和确认而没有延迟。


G.4 启发式策略推导


本节深入解释了我们的启发式策略推导。我们首先从 Deoxys API 获取夹爪姿态,并使用校准参数将其投影到相机坐标系中。我们选择距离夹爪 10 厘米范围内的点。利用这些点,我们预测一般流动,并继续在相机空间中推导出 6 自由度末端执行器运动计划。对于包含 NNitalic_N 个点并代表相邻时间戳的点云 ktsubscriptk_{t}italic_k start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTkt+1subscript1k_{t+1}italic_k start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT ,我们的目标是识别一个具有旋转 R^\hat{R}over^ start_ARG italic_R end_ARG 和平移 T^\hat{T}over^ start_ARG italic_T end_ARG 的 6 自由度变换,以满足以下条件:

wi=(1di+βj=1N1dj+β)subscript𝑤𝑖1subscript𝑑𝑖𝛽superscriptsubscript𝑗1𝑁1subscript𝑑𝑗𝛽\displaystyle w_{i}=\left(\frac{\frac{1}{d_{i}+\beta}}{\sum_{j=1}^{N}\frac{1}{% d_{j}+\beta}}\right)italic_w start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = ( divide start_ARG divide start_ARG 1 end_ARG start_ARG italic_d start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT + italic_β end_ARG end_ARG start_ARG ∑ start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT divide start_ARG 1 end_ARG start_ARG italic_d start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT + italic_β end_ARG end_ARG ) (4)
R^,T^=argminR,Twikt+1i(Rkti+T)2^𝑅^𝑇subscript𝑅𝑇subscript𝑤𝑖superscriptnormsuperscriptsubscript𝑘𝑡1𝑖𝑅superscriptsubscript𝑘𝑡𝑖𝑇2\displaystyle\hat{R},\hat{T}=\mathop{\arg\min}\limits_{R,T}w_{i}\left\|k_{t+1}% ^{i}-(R\cdot k_{t}^{i}+T)\right\|^{2}over^ start_ARG italic_R end_ARG , over^ start_ARG italic_T end_ARG = start_BIGOP roman_arg roman_min end_BIGOP start_POSTSUBSCRIPT italic_R , italic_T end_POSTSUBSCRIPT italic_w start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∥ italic_k start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - ( italic_R ⋅ italic_k start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT + italic_T ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT


其中 wisubscriptw_{i}italic_w start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 表示与 disubscriptd_{i}italic_d start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT (第 iiitalic_i 个查询点和夹爪位置之间的距离)成反比的回归权重, β\betaitalic_β 设置为 1。我们使用 SVD 算法[30]求解方程 4 以获得稳健的结果。所获得的变换 𝒯=(R^,T^)\mathcal{T}=(\hat{R},\hat{T})caligraphic_T = ( over^ start_ARG italic_R end_ARG , over^ start_ARG italic_T end_ARG ) 然后投影回机器人的坐标系,并调整到夹爪的坐标系以供控制器执行。

 G.5 推理延迟

 部分  时间(毫秒)
 数据采集 3.2
 FastSAM 分割 347.6
 点云生成 30.8
 查询点采样 0.3

流量预测(ScaleFlow-B)
22.1

启发式策略生成
1.7
 总计(含段落)  405.7 (2.5 赫兹)
 总计(不含分段) 58.1 (17.5Hz)

表 6:我们管道中每个部分的推理延迟。结果是 10 次测量的平均值。


表 6 详细列出了我们管道中每个组件的平均推理延迟,基于“打开(抓取)冰箱”任务的 10 次测量。主要瓶颈是 FastSAM 分割,它占延迟的 85.7%。这突显了未来工作中需要更高效的开放世界分割模型。如果没有 FastSAM 分割,通用流预测并不是系统的唯一瓶颈;点云的流获取也存在很大的改进空间。

 G.6 失败案例分析


我们分析成功率低于 60%的任务的失败案例,并提出潜在的改进方法:


  • • “推玩具车”(50% 成功率):玩具车的方向需要复杂的语义理解。为了提高模型在这一领域的能力,收集额外的数据是必不可少的。由于玩具车体积较小,集成腕部摄像头也有助于减轻严重的遮挡问题并提高性能。

  • • “拉开抽屉”(30% 抓取,40% 拉动):HOI4D [15] 数据集中棱柱和旋转结构的混合导致预测中略微倾向于包含旋转组件。在我们的高摩擦织物柜中,这种负面影响被放大。抽屉上的皮革把手也带来了挑战,经常从夹爪中滑出。未来的改进可以包括使用更大、语义更丰富的数据集 [67] 和重新设计夹爪。

  • • “打开笔记本电脑”(50%):笔记本电脑的薄盖子经常导致 RGBD 点云生成不良或错误。利用从多个摄像头视图融合的点云可以改善这个问题。


故障案例视频可在 https://general-flow.github.io 查看。总之,这些问题中的大多数在未来部署中是可以解决的。我们在下一节中系统地总结了这些限制和潜在的改进。


附录 H 现实世界通用机器人学习的相关工作


针对现实世界中通用机器人操作的研究不断进步,重点在于将大型语言模型(LLMs)集成到高级规划中[68, 69, 70, 71, 72, 73],并通过LLMs[74]探索直接可执行的指导,尽管由于物理动力学被忽视而存在挑战。开发用于直接低级控制的大型模型[75, 76, 77, 78]因数据需求密集而面临扩展性问题[3, 4]。这突显了需要一个能够在可执行输出和可扩展性之间取得平衡的训练框架。在本研究中,我们通过基于通用流预测的可扩展机器人学习方法实现了这一点。

 附录 I 限制条件


我们数据的多样性和数量目前有限,这限制了我们的模型为复杂任务提供充分指导的能力。未来的一个方向可能涉及利用更大的 RGBD 数据集[79]或 RGB 数据集[35, 80]结合深度估计技术[81, 32]来解决这些问题。


我们目前使用条件 VAE 来捕捉数据集中人类行为的多模态分布。然而,当处理更具挑战性的情况时,例如更大和更多样化的数据集,这种架构可能缺乏足够的表达能力。为了解决这一限制,扩散模型[82]可能是一个潜在的解决方案。


此外,手动抓取过程可以被替换为启发式策略,例如 AVDC[32]中描述的策略,或者通过更先进和自动的方法,如 DexFunc[14]、MoKa[13]和 ManipVQA[83]。未来也有望将表示从以对象为中心的可操作性扩展到通用关键点运动,类似于 ATM[62]中描述的内容。


最初采用的基于 ICP 的启发式策略以零样本方式可能限制任务的完成,特别是那些需要丰富接触操作的任务。未来的研究可以基于少数样本模仿学习环境中的通用流预测来微调策略,例如 Track2Act[63],或者将通用流用作样本高效强化学习的动作约束[29],类似于 VRB[11]。

 附录 J 代码库


我们对以下代码库在本作品开发过程中提供的支持表示感谢:


  • • 模型训练框架和 3D 主干网络基于 Qian 等人[20]的代码库。

  • • 对于 HOI4D 点云数据处理,我们采用了 Liu 等人[15]的方法。

  • • 对于手-物体交互(HOI)检测,我们利用了 Shan 等人[16]的 100DOH 工具。

  • • FastSAM(赵等 [17])用于本工作的所有分割。

  • • 使用了 Karaev 等人[18]的共追踪器来在像素空间中追踪点。

  • • ResNet、Vision Transformer、R3M 和 VAT-MART 基线的实现分别来自 Bao 等人 [27]、Nair 等人 [25] 和 Wu 等人 [10]。

  • • ros 感知和数据流获取基于 Shridhar 等人[84]。

  • • 我们直接从 Zhong 等人[85]继承了 SVD 变换求解器。

  • • 末端执行器的阻抗控制器采用自 Doexys 库(Zhu 等人[31])。