通过触摸生成视觉场景

杨凤宇张家成安德鲁·欧文斯
密歇根大学

抽象的

一项新兴的工作试图通过触摸产生可信的图像。然而，现有方法仅解决视觉触觉合成问题的狭窄方面，并且明显落后于其他领域的跨模态合成方法的质量。我们利用潜在扩散的最新进展，创建了一个从触觉信号合成图像的模型（反之亦然），并将其应用于许多视觉触觉合成任务。使用这个模型，我们在触觉驱动的风格化问题上的表现明显优于之前的工作，即操纵图像以匹配触摸信号，并且我们是第一个成功地通过触摸生成图像而无需额外的场景信息源的人。我们还成功地使用我们的模型解决了两个新颖的合成问题：生成不包含触摸传感器或握住触摸传感器的手的图像，并根据图像的反射率和触摸来估计图像的阴影。项目页面： https ://fredfyyang.github.io/vision-from-touch/

{条}

图 1 ：通过触摸生成和操作图像。我们提出了一种基于潜在扩散的模型，可以在触摸和图像之间进行转换（反之亦然），统一许多以前的视觉触觉图像合成任务并启用新的任务。 (a) 我们生成给定触觉信号的场景图像。 (b) 我们执行触觉驱动的图像风格化，例如重新设计粗糙的岩石以匹配砖块的平滑纹理。 (c) 我们提出了触觉驱动的阴影估计的新任务：根据图像的反射率和触觉信号来预测图像。为了帮助可视化，我们在触摸信号旁边显示参考图像。我们从触摸信号中呈现出圆形裁剪，以强调与物体接触的信号部分。

1简介

人类在很大程度上依赖视觉和触觉之间的跨模式关联来与世界进行物理交互[ 58 ] 。例如，我们的视觉告诉我们当我们将脚放在前面的地面上时会有什么感觉，而我们的触觉则传达了通过短暂接触而看到的看不见的物体可能的视觉外观。在这些模式之间进行转换需要了解物理和材料特性。例如，经过训练来解决这个问题的模型必须学会将阴影的快速变化与粗糙的微观几何形状联系起来，将光滑的纹理与柔软的表面联系起来。

触摸可以说是人类最重要的感觉方式[ 48,43,40 ] ，因为它在基本生存[ 40,9,23 ]和身体互动中发挥着重要作用。然而，触摸传感在多模态学习中受到的关注相对较少。一项新兴的工作已经解决了将触摸转化为视觉的问题，例如通过学习关节嵌入[ 64 , 39 ] ，操纵视觉风格以匹配触觉信号[ 64 ] ，或者将机械臂的合理图像添加到图像中。现有的场景照片[ 38 ] 。虽然这些任务都捕获了跨模式预测问题的重要部分，但目前每个任务都需要单独的专用方法。现有的方法也明显落后于多模态感知其他领域的方法，这些领域为跨模态合成提供了通用方法，并且可以在不借助额外条件信息的情况下在模态之间进行转换。

在本文中，我们利用扩散模型的最新进展，通过触摸生成可信的自然场景图像（反之亦然） [ 51,12,21,22,45 ] 。我们将潜在扩散模型应用于各种视觉触觉合成问题。我们提出的框架在几个新颖的合成问题上获得了强有力的结果，并统一了许多先前研究的视觉触觉合成任务。

首先，我们研究通过触摸生成图像的问题（反之亦然）。我们解决了在没有任何基于图像的调节的情况下通过触摸生成图像的任务，我们是第一个成功生成自然场景图像的方法（图1a ）。我们还解决了向现有场景的照片添加手臂的任务，我们的表现明显优于之前的工作[ 38 ] 。

其次，我们使用基于引导图像合成的方法来解决最近提出的触觉驱动图像风格化任务，即操纵图像以匹配给定触摸信号的问题[ 64 ] （图1b ） [ 44 ] 。我们的方法获得的结果保真度更高，并且与之前的工作相比，与触觉信号的匹配更加紧密。它还提供了控制从输入图像中保留的图像内容量的能力。

最后，我们表明我们可以使用额外的条件信息来增强我们的模型。受到内在图像分解的经典问题的启发[ 41 , 3 ] ，我们执行触觉驱动的阴影估计，在反射率和触摸条件下预测图像（图1c ）。由于触觉微观几何形状的变化通常表现为阴影的变化（即，反射率丢失的信息），这测试了模型链接两个信号的能力。我们还使用分割掩模来创建“无手”图像，其中包含被按压的物体，但不包含按压它的触觉传感器或手臂。

我们使用Touch and Go数据集[ 64 ]中的自然场景展示了我们框架的有效性，该数据集是一个以自我为中心的视频集合，使用 GelSight [ 28 ]捕获各种材料和对象，并使用机器人从VisGel [ 38 ]收集的数据。

2相关工作

具有扩散模型的跨模态合成。

由于扩散模型能够生成高质量样本，因此最近成为受欢迎的生成模型系列。然而，扩散模型的一个主要问题是，由于高维数据的迭代生成过程，其推理速度较慢。最近，潜在扩散[ 51 ]通过处理较低维度的压缩潜在空间来解决这个缺点，这使得扩散模型能够以更快的速度处理更广泛的任务。这些模型在图像合成 [ 12,21,22,45 ] 、超分辨率[ 54 ]和图像编辑[ 57,44,8 ]等任务中取得了显着的成功。此外，多模态学习的进步[ 25、27、16 ]使得扩散模型能够用于跨模态合成任务。对于视觉语言生成，扩散模型已被研究用于文本到图像合成 [ 1,29,46,50,53 ] ，文本到语音生成[ 7,31,35 ] ，文本到 3D 生成[ 42 , 55 ] 。此外，扩散模型在音频合成方面也显示出有希望的结果，包括文本到音频生成[ 56 ] 、波形生成[ 32,18,6 ] 。在这项工作中，我们首次在现实世界的视觉触觉数据上采用扩散模型，探索利用触觉数据作为图像合成提示的可能性。在并行工作中，伊格拉等人。 [ 20 ]使用扩散来模拟触觉数据，他们用这些数据来训练盲文分类器。

触觉传感。

早期的触摸传感器记录简单的低维感觉信号，例如力、振动和温度的测量[ 33,34,10 ] 。从 GelSight [ 65 , 28 ]开始，研究人员提出了各种基于视觉的触觉传感器，它们使用相机转换照明膜的变形，从而提供有关形状和材料属性的详细信息[ 59 , 36 ] 。我们关注这些传感器，特别是使用 GelSight，因为它被广泛使用的应用程序[ 38 , 4 ] ，并且可用于视觉触觉数据集[ 15 , 17 , 64 ] 。至关重要的是，这些传感器产生图像作为输出，使我们能够对图像和触摸使用相同的网络架构[ 66 ] 。其他工作提出了并置视觉和触摸传感器[ 62 , 5 ] 。

视觉和触觉的跨模态模型。

李等人。 [ 38 ]使用 GAN [ 24 ]使用机器人获取的数据集在触觉信号和图像之间进行转换。相比之下，他们需要在同一场景的另一张照片上调整触摸图像模型。这项任务相当于添加一只手臂来抓住正确的物体（给出几种可能的选择），而不是生成一个根据其物理特性可能产生触摸信号的物体。在不进行重大修改的情况下，使他们的方法适应我们解决的其他触摸到图像合成问题并不容易。杨等人。 [ 64 ]提出了一个视觉触觉数据集，并使用 GAN 重新设计图像以匹配触摸信号。他们的方法仅学习有限数量的视觉样式，并且不能直接采用额外的条件信息（例如反射率）或应用于无条件的跨模态翻译任务。其他工作学习了多模态视觉触觉嵌入[ 64 , 39 ] 。其他工作学习将触觉和视觉联系起来以进行伺服和操纵[ 5 ] 。

3方法

Refer to caption — 图 2 ：触摸图像模型。我们使用潜在扩散模型通过触摸生成场景图像。触摸信号使用来自 GelSight 传感器的多帧视频来表示。该模型使用分段掩码来选择性地仅生成包含按下的对象的场景内容（即. ，没有手或触摸传感器）。我们还可以选择以场景的反射率为条件，在这种情况下，模型的生成任务需要它来估计阴影。

我们的目标是使用生成模型将触摸转化为视觉（以及视觉到触摸）。我们将使用基于潜在扩散的模型来做到这一点[ 51 ] 。我们将使用该模型来解决许多任务，包括：1）跨模式视觉触觉合成，2）触觉驱动的图像风格化，以及3）触觉驱动的阴影估计。

3.1视觉和触觉的跨模态综合

我们现在描述我们的跨模式合成框架。首先，我们描述了一个对比视觉触觉模型，我们用它来执行条件生成。其次，我们描述我们的跨模式潜在扩散模型。

3.1.1视觉触觉对比预训练（CVTP）

继跨模态合成[ 49 , 51 ]方面的其他工作之后，我们通过对比学习的多模态嵌入为我们的生成模型提供条件信息[ 14 , 67 , 63 , 60 ] 。我们的嵌入学习方法类似于 Yang等人的方法。 [ 64 ]和对比多视图编码[ 60 ] 。一个关键的区别是我们将时间信息纳入我们的视觉和触觉表征中。触摸物体是一个动态过程，我们获得的信息随着时间的推移而变化，从触觉传感器开始触摸物体的那一刻，到传感器达到最大变形的那一刻。添加时间线索可提供有关材料属性的信息，这些信息可能很难从单个样本中感知，例如表面的硬度或柔软度[ 66 , 26 ] 。

给定视觉和触觉数据集 $X_{I}$ 和 $X_{T}$ ，其中包括 $N$ 同步视觉-触觉框架 $\{\mathbf{x}_{I}^{i},\mathbf{x}_{T}^{i}\}_{i=1}^{N}$ ，我们表示此时采样的视频剪辑 $i$ 与窗户尺寸 $w = 2 C + 1$ , $v_{I}^{i}=\{\mathbf{x}_{I}^{i-C},...,\mathbf{x}_{I}^{i},...,\mathbf{x}_{I}^{i+C}\}$ 以及相应的触觉夹 $v_{I}^{t}=\{\mathbf{x}_{I}^{i-C},...,\mathbf{x}_{I}^{i},...,\mathbf{x}_{I}^{i+C}\}$ 。我们表示取自同一视觉触觉记录的示例 $\{v_{I}^{i},v_{T}^{i}\}$ 作为正样本，以及来自不同视觉-触觉视频对的样本 $\{\upsilon_{I}^{i},\upsilon_{T}^{j}\}$ 作为底片。

我们的目标是共同学习时间视觉 $z_{I}=E_{\phi_{I}}(v_{I})$ 和触觉 $z_{T}=E_{\phi_{T}}(v_{T})$ 编码器。我们使用 2D ResNet 作为两个编码器的架构。为了便于与静态模型进行比较，我们通过早期融合（按通道连接）将时间信息合并到模型中。

然后我们最大化在包含以下内容的记忆库中找到相应的视觉触觉视频对的概率： $K$ 使用 InfoNCE [ 47 ]损失的样本：

\mathcal{L}_{i}^{V_{I},V_{T}}=-{\log}\frac{\exp(E_{\phi_{I}}(v_{I}^{i})\cdot E_{\phi_{T}}(v_{T}^{i})/\tau)}{\sum_{j=1}^{K}{\exp}(E_{\phi_{I}}(v_{I}^{i})\cdot E_{\phi_{T}}(v_{T}^{j})/\tau)}

(1)

在哪里 $\tau$ 是一个小常数。类似地，我们得到一个对称的目标 $\mathcal{L}^{V_{T},V_{I}}$ 并最小化：

\mathcal{L}_{\text{CVTP}}=\mathcal{L}^{V_{I},V_{T}}+\mathcal{L}^{V_{T},V_{I}}.

(2)

3.1.2触摸条件图像生成

我们现在描述触觉到图像生成模型（图像到触摸模型可以用类似的方式制定）。我们的方法遵循 Rombach等人的方法。 [ 51 ] ，它将语言翻译成图像，但具有针对视觉触觉合成问题的各种扩展。给定视觉-触觉图像对 $\{\mathbf{x}_{I},\mathbf{x}_{T}\}\in\mathbb{R}^{H\times W\times 3}$ ，我们的目标是生成图像 $\widetilde{\mathbf{x}}_{I}$ 从触觉输入 $\mathbf{x}_{T}$ 。我们对输入进行编码 $\mathbf{x}$ 转化为潜在表征 $\mathbf{z}=\mathcal{E}(\mathbf{x})\in\mathbb{R}^{h\times w\times 3}$ 。解码器 $\mathcal{D}$ 将重建图像 $\hat{x}=\mathcal{D}(\mathbf{z})$ 从代码中。潜在维度 $h\times w$ 小于图像尺寸 $H\times W$ 。

训练。

我们在潜在空间中训练触摸到视觉扩散生成 $\mathbf{z}_{I}=\mathcal{E}(\mathbf{x}_{I})$ 。扩散模型学习通过从正态分布到所需数据分布的递归去噪来生成图像。具体来说，考虑到我们的潜在表征 $\mathbf{z}_{I}$ ，我们对扩散步骤进行均匀采样 $t\in\{1,...,T\}$ 并得到相应的噪声图像 $\mathbf{z}_{I}^{t}$ 通过使用方差表迭代地添加高斯噪声。我们使用 U-Net [ 52 ]网络 $\epsilon_{\theta}$ 作为我们的去噪模型，它以通过触觉编码器编码的触觉表示为条件 $E_{\phi_{T}}$ 在第 3.1.1节中进行了培训。我们最小化：

\displaystyle L(\theta,\phi)=\mathbb{E}_{\mathbf{z}_{I},\mathbf{c},\epsilon,t}\left[\|\epsilon_{t}-\epsilon_{\theta}(\mathbf{z}_{I}^{t},t,E_{\phi_{T}}(\mathbf{v}_{T}))\|^{2}_{2}\right],

(3)

在哪里 $\epsilon_{t}$ 是此时添加的噪声 $t$ ，和 $\mathbf{v}_{T}$ 是触觉的例子。去噪网络 $\epsilon_{\theta}$ 和触觉编码器 $E_{\phi_{T}}$ 是联合训练的。

推理。

在测试时，我们首先对噪声进行采样 $\widetilde{\mathbf{z}}_{I}^{T}\sim\mathcal{N}(0,1)$ 在某个时间 $T$ ，然后使用训练好的扩散模型迭代预测噪声 $\widetilde{\epsilon}_{t}$ ，产生去噪的潜在表示 $\widetilde{\mathbf{z}}_{I}^{t}=\widetilde{\mathbf{z}}_{I}^{t+1}-\widetilde{\epsilon}_{t+1}$ 从 $t\in\{T-1,...,0\}$ 。按照[ 51,12 ] ，我们使用无分类器指导来权衡条件生成中的样本质量和多样性，将噪声计算为：

\displaystyle\widetilde{\epsilon}_{t}=\epsilon_{\theta}(\widetilde{\mathbf{z}}_{I}^{t},t,\emptyset)+s\cdot\left(\epsilon_{\theta}(\widetilde{\mathbf{z}}_{I}^{t},t,E_{\phi_{T}}(\mathbf{v}_{T}))-\epsilon_{\theta}(\widetilde{\mathbf{z}}_{I}^{t},t,\emptyset)\right),

(4)

在哪里 $\emptyset$ 表示一个零填充的条件示例（用于无条件生成），并且 $s$ 是指导尺度。最后，我们将潜在表示转换为 $\widetilde{\mathbf{z}}_{I}^{0}$ 到图像 $\widetilde{\mathbf{x}}_{I}=\mathcal{D}(\widetilde{\mathbf{z}}_{I}^{0})\in\mathbb{R}^{H\times W\times 3}$ 。

3.2视觉触觉综合模型

到目前为止，我们已经提出了触摸和图像之间转换的模型（反之亦然）。我们现在描述在这个扩散框架上构建的几个视觉触觉合成模型。

3.2.1无需手动生成逼真图像

处理视觉触觉数据的挑战之一是触觉传感器通常会遮挡正在触摸的物体（图3 ）。因此，生成的图像将包含传感器，并可能包含握住传感器的手臂。这并不总是令人满意的，因为触摸传感的主要目标是生成可能产生给定触摸信号的物体或材料的图像。我们针对Touch and Go数据集[ 64 ]中的自然场景解决了这个问题，其中包含可见的人手和 GelSight 传感器[ 65 ] 。

为了生成仅包含产生给定触觉信号的物体的图像（没有手或触摸传感器），我们只计算训练期间不与手重叠的像素的损失，从而剥夺了模型对手像素的监督。我们首先为视觉图像生成手部分割掩模 $\mathbf{m}_{I}=\mathcal{S}(\mathbf{x}_{I})$ 并获得下采样掩模 $\mathbf{z}_{m}$ 图像潜在表示的相同空间维度。为此，我们使用 Darkhalil 等人提供的现成手部分割模型。 [ 11 ] ，这是PointRend [ 30 ]实例分割的修改模型，专门用于分割手部。然后我们将扩散损失（方程6 ）掩蔽为：

\displaystyle\mathbb{E}_{\mathbf{z}_{m},\mathbf{z}_{I},\mathbf{c},\epsilon,t}\left[\|\mathbf{z}_{m}\odot\left(\epsilon_{t}-\epsilon_{\theta}(\mathbf{z}_{I}^{t},t,E_{\phi_{T}}(\mathbf{v}_{T}))\right)\|^{2}_{2}\right],

(5)

在哪里 $\mathbf{z}_{m}$ 指示像素是否与手重叠，以及 $\odot$ 表示逐点乘法。

3.2.2触觉驱动的图像风格化

触觉驱动的图像风格化[ 64 ]旨在操纵对象的视觉外观，使其看起来与给定的触摸信号更加一致。以前的工作提出了在保留图像结构的同时编辑图像的视觉风格的问题[ 64 , 37 ] 。

给定输入图像 $\mathbf{x}_{I}$ 和所需的触觉信号 $\mathbf{x}_{T}^{\prime}$ （从不同的场景获得），我们的目标是操纵 $\mathbf{x}_{I}$ 所以它看起来“感觉”更像 $\mathbf{x}_{T}^{\prime}$ 。我们采用孟等人的方法。 [ 44 ] 。我们首先计算噪声潜在表示 $z_{I}^{N}$ 在某个时间 $0\leq N\leq T$ ，在哪里 $T$ 表示去噪步骤的总数。然后我们进行去噪过程 $z_{I}^{N}$ 从时间步 $N$ 到 0 的条件是 $\mathbf{x}_{T}^{\prime}$ 。这允许通过参数对输入图像中保留的内容量进行细粒度控制 $N$ 。我们分析选择 $N$ 在秒。 4.6 .

3.2.3触觉驱动的阴影估计

触摸传达了大量有关表面微观几何形状的信息[ 28 ] 。其中大部分信息也可以通过阴影线索来感知：由于光与具有朗伯材料属性的物体的表面方向相互作用而产生的强度变化。遵循内在图像分解的经典工作[ 2,19,3 ] ，我们假设图像可以分解为每个像素的反射率和阴影，即我们可以编写我们的图像 $\mathbf{x}_{I}=\mathbf{x}_{R}\odot\mathbf{x}_{S}$ 其中乘积中的两项是每像素反射率和阴影。

我们提出了一个模型来处理从触摸推断阴影的问题。给定图像的估计反射率图 $\mathbf{x}_{R}$ ，以及触摸信号 $\mathbf{x}_{T}$ ，我们重建原始图像 $\mathbf{x}_{I}$ 。这是一项需要推断阴影的任务，因为它是输入中缺少的组件。通过制定问题来预测原始图像，我们可以轻松地重用自然图像中的潜在编码器/解码器。

我们通过修改网络来解决此任务，使其也将反射率作为输入（等式6 ）。我们首先使用 Liu等人的固有图像分解模型来估计反射率。 [ 41 ]并将其下采样到与潜在空间相同的尺寸。然后我们连接下采样的反射率 $\mathbf{z}_{R}$ 到嘈杂的表示 $\mathbf{z}_{I}^{t}$ 作为每个去噪步骤的输入。因此，我们将损失函数（方程6 ）修改如下：

\displaystyle L(\theta,\phi)=\mathbb{E}_{\mathbf{z}_{I},\mathbf{c},\epsilon,t}\left[\|\epsilon_{t}-\epsilon_{\theta}(\mathbf{z}_{I}^{t}\otimes\mathbf{z}_{R},t,E_{\phi_{T}}(\mathbf{v}_{T}))\|^{2}_{2}\right],

(6)

在哪里 $\otimes$ 表示串联。

4 个结果

我们通过对自然场景和机器人收集的数据进行定性和定量实验来评估我们的跨模式合成模型。

4.1实施细节

对比视觉触觉模型。

继[ 64 ]之后，我们使用ResNet-18作为对比模型的骨干，并在Touch和Go上进行训练[ 64 ] 。该模型使用 SGD 训练 240 个 epoch，学习率为 $0.1$ 和重量衰减 $10^{-4}$ 。 ResNet 使用早期融合（按通道级联）将 5 个参考帧作为输入，我们从特征的最后一层获取特征嵌入并将其映射到 512 维。继之前的工作[ 60 ]之后，我们使用 $\tau=0.07$ 并使用包含 16,385 个示例的存储库。

视觉-触觉扩散模型。

我们的潜在扩散模型基于稳定扩散[ 51 ] 。我们使用 Adam 优化器，基本学习率为 $2\times 10^{-6}$ 。模型均使用上述学习率策略进行 30 次迭代训练。我们在 4 个 RTX A40 GPU 上以 96 的批量大小训练模型。条件模型与扩散模型一起进行微调。我们使用冻结的、预训练的 VQ-GAN [ 13 ]来获得我们的潜在表示，空间维度为 64 $\times$ 64. 在推理过程中，我们进行200步的去噪处理并设置指导尺度 $s = 7.5$ 。

4.2实验设置

数据集。

我们在两个现实世界的视觉触觉数据集上进行实验：

•

Touch and Go数据集。 Touch and Go数据集是最新的现实世界视觉触觉数据集，人类在室内和室外场景中探测各种物体。大约 4000 个不同的对象实例和 20 个材质类别有 13,900 次触摸。由于这是唯一具有放大图像和清晰可见材料的可用数据集，因此我们将其用于所有三项任务。
•

VisGel数据集。 VisGel数据集包含配备 GelSight 传感器的机器人手臂与 195 个家用物品交互的同步视频。该数据集包括 195 个物体，涵盖食品、工具、厨房用品、织物和文具等各种室内场景。该数据集总共包含 12k 次触摸和大约 300 万帧。

表 1： Touch and Go上跨模式生成的评估。

方法	触碰 $\rightarrow$ 图像			图像 $\rightarrow$ 触碰
方法	CVTP（ $\uparrow$ ）	材料（ $\uparrow$ ）	FID( $\downarrow$ ）	SSIM（ $\uparrow$ ）	峰值信噪比（ $\uparrow$ ）
像素到像素[ 24 ]	0.08	0.15	136.4	0.43	14.3
可见凝胶[ 38 ]	0.07	0.15	128.3	0.45	15.0
我们的手	0.12	0.22	48.7	0.50	15.4
我们的没有手	0.12	0.24	81.5	0.50	15.4

评估指标。

我们使用多种定量指标来评估生成的图像或触觉信号的质量。我们使用Frechet Inception Distance (FID) ，它使用经过训练的网络来比较真实图像激活和生成图像激活的分布。继杨等人之后。 [ 64 ]和CLIP [ 49 ] ，我们对生成的图像和条件触觉信号的学习视觉和触觉嵌入之间的余弦相似度进行了余弦相似度，我们将这一指标称为对比视觉触觉预训练（CVTP）。分数越高表示触摸和图像之间的相关性越好。值得注意的是，CVTP 指标仅采用一帧触摸输入。按照[ 64 ] ，我们测量材料分类一致性：我们使用Yang等人的材料分类器。 [ 64 ]对预测图像和地面真实图像进行分类，并测量它们的一致率。

最后，按照[ 16 ] ，我们评估标准结构相似性指数测量（SSIM）和峰值信噪比（PSNR） [ 61 ]指标。

表 2： VisGel上跨模态生成的评估（以及对场景中的另一张照片进行调节）。

方法	触碰 $\rightarrow$ 图像		图像 $\rightarrow$ 触碰
方法	SSIM（ $\uparrow$ ）	峰值信噪比（ $\uparrow$ ）	SSIM（ $\uparrow$ ）	峰值信噪比（ $\uparrow$ ）
像素到像素[ 24 ]	0.50	15.1	0.71	20.7
可见凝胶[ 38 ]	0.59	17.9	0.76	26.2
我们的	0.76	21.5	0.85	27.6

4.3跨模态生成

我们在野外Touch and Go数据集和机器人收集的数据集VisGel上执行跨模式生成，即通过触摸生成图像，反之亦然。为了与之前的工作[ 38 ]进行直接比较，我们在VisGel上提供了场景的参考照片作为模型的输入。因此，成功预测地面实况图像相当于将机械臂的图像插入场景中的正确位置。对于Touch and Go ，我们不会根据视觉输入来调节模型：相反，我们只是将一种模式转换为另一种模式。

对于评估指标，我们使用 CVTP、材料分类一致性和 FID 分数来生成触摸到图像，使用 SSIM 和 PSNR 来生成图像到触摸。对于VisGel数据集，我们利用 SSIM 和 PSNR 作为这两项任务的评估指标。我们仅在Touch and Go上的触摸到图像生成任务中使用 CVTP、材料分类一致性和 FID，因为这些评估指标依赖于来自自然图像数据集的预训练神经网络，这可能无法很好地概括不同的模态或机器人收集的数据。

我们将我们的模型与先前最先进的视觉触觉生成方法[ 38 ]进行比较，该方法改编自pix2pix [ 24 ] ，专门设计用于通过添加参考图像和时间来弥合模态之间的大域差距健康）状况。由于不可能在自然图像数据集中找到参考图像，因此我们删除参考图像，同时保持其他所有内容相同。

我们分别在表1和表2中显示了Touch and Go和VisGel上两项任务的定量结果。我们的方法在所有评估指标上都远远优于现有的最先进方法。我们注意到，由于原始数据集和我们生成的图像之间的手部差异，从图像中移除手部的模型变体获得的 FID 分数比带有手部的模型更差。有趣的是，手的存在并不影响CVTP的性能和材料分类的一致性。我们在图5 （底部）中提供了两个模型的定性结果。

表 3：触觉驱动图像风格化的定量结果。

方法	评估指标
方法	CVTP（ $\uparrow$ ）	材料（ $\uparrow$ ）	火焰离子化检测器（ $\downarrow$ ）
循环 GAN [ 68 ]	0.09	0.15	24.6
杨等人。 [ 64 ]	0.10	0.20	22.5
我们的	0.13	0.22	15.8

4.4触觉驱动的图像风格化

继[ 64 ]之后，我们使用CVTP和材料分类指标评估Touch and Go [ 64 ]上触觉驱动图像风格化的性能。我们还计算生成的图像集和与给定触觉信号相关的真实图像集之间的 FID 分数，以衡量输出的保真度。我们将我们的模型与 CycleGAN [ 68 ]的修改版本以及 Yang 等人的最先进方法进行比较。 [ 64 ] 。从表3的定量比较来看，我们的方法比现有方法有了显着的改进。我们还在图3中显示了定性比较，其中生成的图像与触觉信号更加匹配，并且我们能够生成现有方法无法捕获的样式。

4.5触觉驱动的阴影估计

我们假设触觉信号传达有关图像微观几何形状的信息，从而使模型能够比无法接触触摸的反射到图像模型产生更准确的图像。我们在Touch 和 Go上评估了这两个模型（表4 ），发现添加触摸确实可以提高所有评估指标的性能。我们还在图7中显示了定性比较。我们发现触觉信号对于预测朗伯表面（例如砖块）的粗糙度和光滑度特别有用。

表 4：触觉驱动的阴影估计的定量结果。

方法	反射率 $\rightarrow$ 图像
方法	SSIM（ $\uparrow$ ）	峰值信噪比（ $\uparrow$ ）	FID( $\downarrow$ ）
仅触摸	0.27	11.6	48.7
仅反射率	0.46	14.5	40.7
反射+触摸	0.48	15.4	36.9

4.6分析

时间信息的重要性。

我们首先研究添加多个 GelSight 框架到对比视觉触觉嵌入中的效果（图9 ）。我们将我们的方法与Touch and Go上的无条件生成和材质类条件生成进行比较。我们发现，与无条件生成相比，条件生成在性能方面提供了很大的改进。我们还观察到，以预训练模型为条件的生成明显优于没有预训练的生成。有趣的是，以材料类别为条件的模型优于仅观察单个 GelSight 帧的模型的变化，这表明仅从单个时刻感知触摸信号可能比材料类别提供的信息更少。为模型提供额外的帧可以显着改善模型，其中 5 帧模型获得了整体最佳性能。

可控图像风格化

我们的方法使我们能够控制数量通过改变去噪起始点从原始图像中保留的图像内容 $N$ （第3.2.2节） [ 44 ] 。从图8中我们观察到，如果我们选择较大的 $N$ ，生成的图像将发生更剧烈的变化，视觉外观将完全改变以匹配触觉信号，同时破坏原始图像结构。在极端情况下，其中 $N = T$ 操作结果将等于触摸图像生成结果，虽然较小 $N$ 将导致整体变化很小。我们凭经验发现，选择 $N = T / 2$ 在这些因素之间取得了良好的权衡。

5结论

我们提出了一种视觉触觉扩散模型，该模型统一了之前的跨模态合成任务，并使我们能够解决新问题。我们是第一个通过触摸在自然场景中生成逼真图像的人（反之亦然），无需任何基于图像的调节。我们还展示了生成逼真的“无手”图像并解决新颖的触觉驱动的阴影估计任务的能力。最后，我们在触觉驱动的风格化任务上获得了比之前的工作更加真实的结果。我们认为我们的工作是朝着整合触觉感知和生成建模领域迈出的一步。

局限性。

由于我们的工作可用于创建虚假图像，因此一个潜在的问题是它可能会被用来创建虚假信息。此外，由于触摸主要传达材料特性和微观几何形状，生成的图像在语义上通常与地面实况不同。

致谢。

我们感谢 Chao Feng、Ziyang Chen 和 Shaokai Wu 对可视化的有益讨论和帮助。这项工作得到了思科系统公司的部分支持。

References

[1] Omri Avrahami, Dani Lischinski, and Ohad Fried. Blended diffusion for text-driven editing of natural images. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 18187–18197, 2021.
[2] Harry Barrow, J Tenenbaum, A Hanson, and E Riseman. Recovering intrinsic scene characteristics. Comput. vis. syst, 2(3-26):2, 1978.
[3] Sean Bell, Kavita Bala, and Noah Snavely. Intrinsic images in the wild. ACM Trans. on Graphics (SIGGRAPH), 33(4), 2014.
[4] Roberto Calandra, Andrew Owens, Manu Upadhyaya, Wenzhen Yuan, Justin Lin, Edward H Adelson, and Sergey Levine. The feeling of success: Does touch sensing help predict grasp outcomes? Conference on Robot Learning (CoRL), 2017.
[5] Arkadeep Narayan Chaudhury, Timothy Man, Wenzhen Yuan, and Christopher G Atkeson. Using collocated vision and tactile sensors for visual servoing and localization. IEEE Robotics and Automation Letters, 7(2):3427–3434, 2022.
[6] Zehua Chen, Xu Tan, Ke Wang, Shifeng Pan, Danilo P. Mandic, Lei He, and Sheng Zhao. Infergrad: Improving diffusion models for vocoder by considering inference in training. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 8432–8436, 2022.
[7] Ze Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xuejiao Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, and Danilo P. Mandic. Resgrad: Residual denoising diffusion probabilistic models for text to speech. ArXiv, abs/2212.14518, 2022.
[8] Shin-I Cheng, Yu-Jie Chen, Wei-Chen Chiu, Hung-Yu Tseng, and Hsin-Ying Lee. Adaptively-realistic image generation from stroke and sketch with diffusion model. In IEEE Winter Conference on Applications of Computer Vision (WACV), 2023.
[9] James J Cox, Frank Reimann, Adeline K Nicholas, Gemma Thornton, Emma Roberts, Kelly Springell, Gulshan Karbani, Hussain Jafri, Jovaria Mannan, Yasmin Raashid, et al. An scn9a channelopathy causes congenital inability to experience pain. Nature, 444(7121):894–898, 2006.
[10] Mark R. Cutkosky, Robert D. Howe, and William R. Provancher. Force and tactile sensors. In Springer Handbook of Robotics, 2008.
[11] Ahmad Darkhalil, Dandan Shan, Bin Zhu, Jian Ma, Amlan Kar, Richard Higgins, Sanja Fidler, David Fouhey, and Dima Damen. Epic-kitchens visor benchmark: Video segmentations and object relations. In Proceedings of the Neural Information Processing Systems (NeurIPS) Track on Datasets and Benchmarks, 2022.
[12] Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat GANs on image synthesis. In A. Beygelzimer, Y. Dauphin, P. Liang, and J. Wortman Vaughan, editors, Advances in Neural Information Processing Systems, 2021.
[13] Mucong Ding, Kezhi Kong, Jingling Li, Chen Zhu, John P. Dickerson, Furong Huang, and Tom Goldstein. Vq-gnn: A universal framework to scale up graph neural networks using vector quantization. In Neural Information Processing Systems, 2021.
[14] Chao Feng, Ziyang Chen, and Andrew Owens. Self-supervised video forensics by audio-visual anomaly detection. Computer Vision and Pattern Recognition (CVPR), 2023.
[15] Ruohan Gao, Yen-Yu Chang, Shivani Mall, Li Fei-Fei, and Jiajun Wu. Objectfolder: A dataset of objects with implicit visual, auditory, and tactile representations. In CoRL, 2021.
[16] Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, and Jiajun Wu. The objectfolder benchmark: Multisensory learning with neural and real objects. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 17276–17286, June 2023.
[17] Ruohan Gao, Zilin Si, Yen-Yu Chang, Samuel Clarke, Jeannette Bohg, Li Fei-Fei, Wenzhen Yuan, and Jiajun Wu. Objectfolder 2.0: A multisensory object dataset for sim2real transfer. In CVPR, 2022.
[18] Sang gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sung-Hoon Yoon, and Tie-Yan Liu. Priorgrad: Improving conditional denoising diffusion models with data-dependent adaptive prior. In International Conference on Learning Representations, 2021.
[19] Roger Grosse, Micah K Johnson, Edward H Adelson, and William T Freeman. Ground truth dataset and baseline evaluations for intrinsic image algorithms. In 2009 IEEE 12th International Conference on Computer Vision, pages 2335–2342. IEEE, 2009.
[20] Carolina Higuera, Byron Boots, and Mustafa Mukadam. Learning to read braille: Bridging the tactile reality gap with diffusion models. arXiv preprint arXiv:2304.01182, 2023.
[21] Jonathan Ho, Ajay Jain, and P. Abbeel. Denoising diffusion probabilistic models. 2020.
[22] Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. J. Mach. Learn. Res., 23:47:1–47:33, 2021.
[23] Fabian Hutmacher. Why is there so much more research on vision than on any other sensory modality? Frontiers in psychology, 10:2246, 2019.
[24] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. CVPR, 2017.
[25] Wei Ji, Long Chen, Yinwei Wei, Yiming Wu, and Tat-Seng Chua. Mrtnet: Multi-resolution temporal network for video sentence grounding. arXiv preprint arXiv:2212.13163, 2022.
[26] Wei Ji, Xi Li, Fei Wu, Zhijie Pan, and Yueting Zhuang. Human-centric clothing segmentation via deformable semantic locality-preserving network. volume 30, pages 4837–4848. IEEE, 2019.
[27] Wei Ji, Xiangyan Liu, An Zhang, Yinwei Wei, and Xiang Wang. Online distillation-enhanced multi-modal transformer for sequential recommendation. In Proceedings of the 31th ACM international conference on Multimedia, 2023.
[28] Micah K Johnson and Edward H Adelson. Retrographic sensing for the measurement of surface texture and shape. In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pages 1070–1077. IEEE, 2009.
[29] Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Hui-Tang Chang, Tali Dekel, Inbar Mosseri, and Michal Irani. Imagic: Text-based real image editing with diffusion models. ArXiv, abs/2210.09276, 2022.
[30] Alexander Kirillov, Yuxin Wu, Kaiming He, and Ross B. Girshick. Pointrend: Image segmentation as rendering. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9796–9805, 2019.
[31] Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, and Bryan Catanzaro. Diffwave: A versatile diffusion model for audio synthesis. ArXiv, abs/2009.09761, 2020.
[32] Max W. Y. Lam, Jun Wang, Dan Su, and Dong Yu. BDDM: Bilateral denoising diffusion models for fast and high-quality speech synthesis. In International Conference on Learning Representations, 2022.
[33] Susan J. Lederman and Roberta L. Klatzky. Hand movements: A window into haptic object recognition. Cognitive Psychology, 19:342–368, 1987.
[34] Susan J. Lederman and R. L. Klatzky. Tutorial review haptic perception: A tutorial. 2009.
[35] Yichong Leng, Zehua Chen, Junliang Guo, Haohe Liu, Jiawei Chen, Xu Tan, Danilo P. Mandic, Lei He, Xiang-Yang Li, Tao Qin, Sheng Zhao, and Tie-Yan Liu. Binauralgrad: A two-stage conditional diffusion probabilistic model for binaural audio synthesis. ArXiv, abs/2205.14807, 2022.
[36] Nathan F. Lepora, Yijiong Lin, Ben Money-Coomes, and John Lloyd. Digitac: A digit-tactip hybrid tactile sensor for comparing low-cost high-resolution robot touch. IEEE Robotics and Automation Letters, 7:9382–9388, 2022.
[37] Tingle Li, Yichen Liu, Andrew Owens, and Hang Zhao. Learning visual styles from audio-visual associations. In ECCV, 2022.
[38] Yunzhu Li, Jun-Yan Zhu, Russ Tedrake, and Antonio Torralba. Connecting touch and vision via cross-modal prediction. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10601–10610, 2019.
[39] Justin Lin, Roberto Calandra, and Sergey Levine. Learning to identify object instances by touch: Tactile recognition via multimodal matching. In 2019 International Conference on Robotics and Automation (ICRA), pages 3644–3650. IEEE, 2019.
[40] David J Linden. Touch: The science of the hand, heart, and mind. Penguin Books, 2016.
[41] Yunfei Liu, Yu Li, Shaodi You, and Feng Lu. Unsupervised learning for intrinsic image decomposition from a single image. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3248–3257, 2020.
[42] Shitong Luo and Wei Hu. Diffusion probabilistic models for 3d point cloud generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2021.
[43] Paul R Manske. The sense of touch. Journal of Hand Surgery, 24(2):213–214, 1999.
[44] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. SDEdit: Guided image synthesis and editing with stochastic differential equations. In International Conference on Learning Representations, 2022.
[45] Alex Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. ICML, abs/2102.09672, 2021.
[46] Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: Towards photorealistic image generation and editing with text-guided diffusion models. In International Conference on Machine Learning, 2021.
[47] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018.
[48] Brian O’Shaughnessy. The sense of touch. Australasian journal of philosophy, 67(1):37–58, 1989.
[49] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
[50] Tanzila Rahman, Hsin-Ying Lee, Jian Ren, S. Tulyakov, Shweta Mahajan, and Leonid Sigal. Make-a-story: Visual memory conditioned consistent story generation. ArXiv, abs/2211.13319, 2022.
[51] Robin Rombach, A. Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10674–10685, 2022.
[52] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, 2015.
[53] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L. Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, Seyedeh Sara Mahdavi, Raphael Gontijo Lopes, Tim Salimans, Jonathan Ho, David J. Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. ArXiv, abs/2205.11487, 2022.
[54] Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement. IEEE transactions on pattern analysis and machine intelligence, PP, 2021.
[55] Ruizhi Shao, Zerong Zheng, Hongwen Zhang, Jingxiang Sun, and Yebin Liu. Diffustereo: High quality human reconstruction via diffusion-based stereo using sparse cameras. In ECCV, 2022.
[56] Uriel Singer, Adam Polyak, Thomas Hayes, Xiaoyue Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, and Yaniv Taigman. Make-a-video: Text-to-video generation without text-video data. ArXiv, abs/2209.14792, 2022.
[57] Abhishek Sinha, Jiaming Song, Chenlin Meng, and Stefano Ermon. D2c: Diffusion-denoising models for few-shot conditional generation. ArXiv, abs/2106.06819, 2021.
[58] Linda Smith and Michael Gasser. The development of embodied cognition: Six lessons from babies. Artificial life, 2005.
[59] Ian Taylor, Siyuan Dong, and Alberto Rodriguez. Gelslim 3.0: High-resolution measurement of shape, force and slip in a compact tactile-sensing finger. 2022 International Conference on Robotics and Automation (ICRA), pages 10781–10787, 2021.
[60] Yonglong Tian, Dilip Krishnan, and Phillip Isola. Contrastive multiview coding. In European conference on computer vision, pages 776–794. Springer, 2020.
[61] L.-T. Wang, Nathan E. Hoover, Edwin H. Porter, and John J. Zasio. Ssim: A software levelized compiled-code simulator. 24th ACM/IEEE Design Automation Conference, pages 2–8, 1987.
[62] Akihiko Yamaguchi and Christopher G Atkeson. Implementing tactile behaviors using fingervision. In 2017 IEEE-RAS 17th International Conference on Humanoid Robotics (Humanoids), pages 241–248. IEEE, 2017.
[63] Fengyu Yang and Chenyang Ma. Sparse and complete latent organization for geospatial semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1809–1818, 2022.
[64] Fengyu Yang, Chenyang Ma, Jiacheng Zhang, Jing Zhu, Wenzhen Yuan, and Andrew Owens. Touch and go: Learning from human-collected vision and touch. Neural Information Processing Systems (NeurIPS) - Datasets and Benchmarks Track, 2022.
[65] Wenzhen Yuan, Siyuan Dong, and Edward H. Adelson. Gelsight: High-resolution robot tactile sensors for estimating geometry and force. Sensors (Basel, Switzerland), 17, 2017.
[66] Wenzhen Yuan, Chenzhuo Zhu, Andrew Owens, Mandayam A Srinivasan, and Edward H Adelson. Shape-independent hardness estimation using deep learning and a gelsight tactile sensor. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 951–958. IEEE, 2017.
[67] Chenhao Zheng, Ayush Shrivastava, and Andrew Owens. Exif as language: Learning cross-modal associations between images and camera metadata. Computer Vision and Pattern Recognition (CVPR), 2023.
[68] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.

We provide additional details about our method, and provide qualitative results for our generation tasks.

Appendix A Model Architecture and Implementation Details

We provide additional details about the latent diffusion model, such as the training hyperparameters.

Table 5: We show detailed hyperparamters setting of our models, including first stage model, condition model and LDM model.

Hyperparamter	Value	Hyperparamter	Value
Learning Rate	$2\times 10^{-6}$	LDM Model	U-Net
Image Size	256	LDM Input Size	64
Channel	3	LDM Input Channel	3
Conditioning Key	Crossattn	LDM Output Channel	3
First Stage Model	VQModelInterface	LDM Attention Resolutions	[8,4,2]
VQ In-channel	3	LDM Num Resblocks	2
VQ Out-channel	3	LDM Channel Mult	[1,2,3,5]
VQ Num. Resblocks	2	LDM Num Head Channels	32
VQ dropout	0.0	LDM Use Spatial Transformer	True
Condition Model	CVTP ResNet-18	LDM Transformer Depth	1
Condition Layer	5	LDM Context Dim	512
Condition Frame	5	Batch Size	48
Cond Stage Trainable	True	Monitor	val/loss_simple_ema
Diffusion Timesteps	1000	Epoch	30
Scheduler	DDPM

Appendix B More Qualitative Results

We provide additional results visuo-tactile cross generation, tactile-driven stylization and tactile-driven shading estimation.