通过触摸生成视觉场景
抽象的
一项新兴的工作试图通过触摸产生可信的图像。然而,现有方法仅解决视觉触觉合成问题的狭窄方面,并且明显落后于其他领域的跨模态合成方法的质量。我们利用潜在扩散的最新进展,创建了一个从触觉信号合成图像的模型(反之亦然),并将其应用于许多视觉触觉合成任务。使用这个模型,我们在触觉驱动的风格化问题上的表现明显优于之前的工作,即操纵图像以匹配触摸信号,并且我们是第一个成功地通过触摸生成图像而无需额外的场景信息源的人。我们还成功地使用我们的模型解决了两个新颖的合成问题:生成不包含触摸传感器或握住触摸传感器的手的图像,并根据图像的反射率和触摸来估计图像的阴影。项目页面: https ://fredfyyang.github.io/vision-from-touch/
1简介
人类在很大程度上依赖视觉和触觉之间的跨模式关联来与世界进行物理交互[ 58 ] 。例如,我们的视觉告诉我们当我们将脚放在前面的地面上时会有什么感觉,而我们的触觉则传达了通过短暂接触而看到的看不见的物体可能的视觉外观。在这些模式之间进行转换需要了解物理和材料特性。例如,经过训练来解决这个问题的模型必须学会将阴影的快速变化与粗糙的微观几何形状联系起来,将光滑的纹理与柔软的表面联系起来。
触摸可以说是人类最重要的感觉方式[ 48,43,40 ] ,因为它在基本生存[ 40,9,23 ]和身体互动中发挥着重要作用。然而,触摸传感在多模态学习中受到的关注相对较少。一项新兴的工作已经解决了将触摸转化为视觉的问题,例如通过学习关节嵌入[ 64 , 39 ] ,操纵视觉风格以匹配触觉信号[ 64 ] ,或者将机械臂的合理图像添加到图像中。现有的场景照片[ 38 ] 。虽然这些任务都捕获了跨模式预测问题的重要部分,但目前每个任务都需要单独的专用方法。现有的方法也明显落后于多模态感知其他领域的方法,这些领域为跨模态合成提供了通用方法,并且可以在不借助额外条件信息的情况下在模态之间进行转换。
在本文中,我们利用扩散模型的最新进展,通过触摸生成可信的自然场景图像(反之亦然) [ 51,12,21,22,45 ] 。我们将潜在扩散模型应用于各种视觉触觉合成问题。我们提出的框架在几个新颖的合成问题上获得了强有力的结果,并统一了许多先前研究的视觉触觉合成任务。
首先,我们研究通过触摸生成图像的问题(反之亦然)。我们解决了在没有任何基于图像的调节的情况下通过触摸生成图像的任务,我们是第一个成功生成自然场景图像的方法(图1a )。我们还解决了向现有场景的照片添加手臂的任务,我们的表现明显优于之前的工作[ 38 ] 。
其次,我们使用基于引导图像合成的方法来解决最近提出的触觉驱动图像风格化任务,即操纵图像以匹配给定触摸信号的问题[ 64 ] (图1b ) [ 44 ] 。我们的方法获得的结果保真度更高,并且与之前的工作相比,与触觉信号的匹配更加紧密。它还提供了控制从输入图像中保留的图像内容量的能力。
2相关工作
具有扩散模型的跨模态合成。
由于扩散模型能够生成高质量样本,因此最近成为受欢迎的生成模型系列。然而,扩散模型的一个主要问题是,由于高维数据的迭代生成过程,其推理速度较慢。最近,潜在扩散[ 51 ]通过处理较低维度的压缩潜在空间来解决这个缺点,这使得扩散模型能够以更快的速度处理更广泛的任务。这些模型在图像合成[ 12,21,22,45 ] 、超分辨率[ 54 ]和图像编辑[ 57,44,8 ]等任务中取得了显着的成功。此外,多模态学习的进步[ 25、27、16 ]使得扩散模型能够用于跨模态合成任务。对于视觉语言生成,扩散模型已被研究用于文本到图像合成[ 1,29,46,50,53 ] ,文本到语音生成[ 7,31,35 ] ,文本到 3D 生成[ 42 , 55 ] 。此外,扩散模型在音频合成方面也显示出有希望的结果,包括文本到音频生成[ 56 ] 、波形生成[ 32,18,6 ] 。 在这项工作中,我们首次在现实世界的视觉触觉数据上采用扩散模型,探索利用触觉数据作为图像合成提示的可能性。在并行工作中,伊格拉等人。 [ 20 ]使用扩散来模拟触觉数据,他们用这些数据来训练盲文分类器。
触觉传感。
视觉和触觉的跨模态模型。
李等人。 [ 38 ]使用 GAN [ 24 ]使用机器人获取的数据集在触觉信号和图像之间进行转换。相比之下,他们需要在同一场景的另一张照片上调整触摸图像模型。这项任务相当于添加一只手臂来抓住正确的物体(给出几种可能的选择),而不是生成一个根据其物理特性可能产生触摸信号的物体。在不进行重大修改的情况下,使他们的方法适应我们解决的其他触摸到图像合成问题并不容易。杨等人。 [ 64 ]提出了一个视觉触觉数据集,并使用 GAN 重新设计图像以匹配触摸信号。他们的方法仅学习有限数量的视觉样式,并且不能直接采用额外的条件信息(例如反射率)或应用于无条件的跨模态翻译任务。其他工作学习了多模态视觉触觉嵌入[ 64 , 39 ] 。其他工作学习将触觉和视觉联系起来以进行伺服和操纵[ 5 ] 。
3方法
我们的目标是使用生成模型将触摸转化为视觉(以及视觉到触摸)。我们将使用基于潜在扩散的模型来做到这一点[ 51 ] 。我们将使用该模型来解决许多任务,包括:1)跨模式视觉触觉合成,2)触觉驱动的图像风格化,以及3)触觉驱动的阴影估计。
3.1视觉和触觉的跨模态综合
我们现在描述我们的跨模式合成框架。首先,我们描述了一个对比视觉触觉模型,我们用它来执行条件生成。其次,我们描述我们的跨模式潜在扩散模型。
3.1.1视觉触觉对比预训练(CVTP)
继跨模态合成[ 49 , 51 ]方面的其他工作之后,我们通过对比学习的多模态嵌入为我们的生成模型提供条件信息[ 14 , 67 , 63 , 60 ] 。我们的嵌入学习方法类似于 Yang等人的方法。 [ 64 ]和对比多视图编码[ 60 ] 。一个关键的区别是我们将时间信息纳入我们的视觉和触觉表征中。触摸物体是一个动态过程,我们获得的信息随着时间的推移而变化,从触觉传感器开始触摸物体的那一刻,到传感器达到最大变形的那一刻。添加时间线索可提供有关材料属性的信息,这些信息可能很难从单个样本中感知,例如表面的硬度或柔软度[ 66 , 26 ] 。
给定视觉和触觉数据集 和 ,其中包括 同步视觉-触觉框架 ,我们表示此时采样的视频剪辑 与窗户尺寸 , 以及相应的触觉夹 。我们表示取自同一视觉触觉记录的示例 作为正样本,以及来自不同视觉-触觉视频对的样本 作为底片。
我们的目标是共同学习时间视觉 和触觉 编码器。我们使用 2D ResNet 作为两个编码器的架构。为了便于与静态模型进行比较,我们通过早期融合(按通道连接)将时间信息合并到模型中。
然后我们最大化在包含以下内容的记忆库中找到相应的视觉触觉视频对的概率: 使用 InfoNCE [ 47 ]损失的样本:
(1) |
在哪里 是一个小常数。类似地,我们得到一个对称的目标 并最小化:
(2) |
3.1.2触摸条件图像生成
我们现在描述触觉到图像生成模型(图像到触摸模型可以用类似的方式制定)。我们的方法遵循 Rombach等人的方法。 [ 51 ] ,它将语言翻译成图像,但具有针对视觉触觉合成问题的各种扩展。给定视觉-触觉图像对 ,我们的目标是生成图像 从触觉输入 。我们对输入进行编码 转化为潜在表征 。解码器 将重建图像 从代码中。潜在维度 小于图像尺寸 。
训练。
推理。
3.2视觉触觉综合模型
到目前为止,我们已经提出了触摸和图像之间转换的模型(反之亦然)。我们现在描述在这个扩散框架上构建的几个视觉触觉合成模型。
3.2.1无需手动生成逼真图像
3.2.2触觉驱动的图像风格化
3.2.3触觉驱动的阴影估计
触摸传达了大量有关表面微观几何形状的信息[ 28 ] 。其中大部分信息也可以通过阴影线索来感知:由于光与具有朗伯材料属性的物体的表面方向相互作用而产生的强度变化。遵循内在图像分解的经典工作[ 2,19,3 ] ,我们假设图像可以分解为每个像素的反射率和阴影,即我们可以编写我们的图像 其中乘积中的两项是每像素反射率和阴影。
我们提出了一个模型来处理从触摸推断阴影的问题。给定图像的估计反射率图 ,以及触摸信号 ,我们重建原始图像 。这是一项需要推断阴影的任务,因为它是输入中缺少的组件。通过制定问题来预测原始图像,我们可以轻松地重用自然图像中的潜在编码器/解码器。
4 个结果
我们通过对自然场景和机器人收集的数据进行定性和定量实验来评估我们的跨模式合成模型。
4.1实施细节
对比视觉触觉模型。
视觉-触觉扩散模型。
4.2实验设置
数据集。
我们在两个现实世界的视觉触觉数据集上进行实验:
-
•
Touch and Go数据集。 Touch and Go数据集是最新的现实世界视觉触觉数据集,人类在室内和室外场景中探测各种物体。大约 4000 个不同的对象实例和 20 个材质类别有 13,900 次触摸。由于这是唯一具有放大图像和清晰可见材料的可用数据集,因此我们将其用于所有三项任务。 -
•
VisGel数据集。 VisGel数据集包含配备 GelSight 传感器的机器人手臂与 195 个家用物品交互的同步视频。该数据集包括 195 个物体,涵盖食品、工具、厨房用品、织物和文具等各种室内场景。该数据集总共包含 12k 次触摸和大约 300 万帧。
评估指标。
我们使用多种定量指标来评估生成的图像或触觉信号的质量。我们使用Frechet Inception Distance (FID) ,它使用经过训练的网络来比较真实图像激活和生成图像激活的分布。继杨等人之后。 [ 64 ]和CLIP [ 49 ] ,我们对生成的图像和条件触觉信号的学习视觉和触觉嵌入之间的余弦相似度进行了余弦相似度,我们将这一指标称为对比视觉触觉预训练(CVTP) 。分数越高表示触摸和图像之间的相关性越好。值得注意的是,CVTP 指标仅采用一帧触摸输入。按照[ 64 ] ,我们测量材料分类一致性:我们使用Yang等人的材料分类器。 [ 64 ]对预测图像和地面真实图像进行分类,并测量它们的一致率。
4.3跨模态生成
我们在野外Touch and Go数据集和机器人收集的数据集VisGel上执行跨模式生成,即通过触摸生成图像,反之亦然。为了与之前的工作[ 38 ]进行直接比较,我们在VisGel上提供了场景的参考照片作为模型的输入。因此,成功预测地面实况图像相当于将机械臂的图像插入场景中的正确位置。对于Touch and Go ,我们不会根据视觉输入来调节模型:相反,我们只是将一种模式转换为另一种模式。
对于评估指标,我们使用 CVTP、材料分类一致性和 FID 分数来生成触摸到图像,使用 SSIM 和 PSNR 来生成图像到触摸。对于VisGel数据集,我们利用 SSIM 和 PSNR 作为这两项任务的评估指标。我们仅在Touch and Go上的触摸到图像生成任务中使用 CVTP、材料分类一致性和 FID,因为这些评估指标依赖于来自自然图像数据集的预训练神经网络,这可能无法很好地概括不同的模态或机器人收集的数据。
我们将我们的模型与先前最先进的视觉触觉生成方法[ 38 ]进行比较,该方法改编自pix2pix [ 24 ] ,专门设计用于通过添加参考图像和时间来弥合模态之间的大域差距健康)状况。由于不可能在自然图像数据集中找到参考图像,因此我们删除参考图像,同时保持其他所有内容相同。
4.4触觉驱动的图像风格化
4.5触觉驱动的阴影估计
我们假设触觉信号传达有关图像微观几何形状的信息,从而使模型能够比无法接触触摸的反射到图像模型产生更准确的图像。我们在Touch 和 Go上评估了这两个模型(表4 ),发现添加触摸确实可以提高所有评估指标的性能。我们还在图7中显示了定性比较。我们发现触觉信号对于预测朗伯表面(例如砖块)的粗糙度和光滑度特别有用。
表 4:触觉驱动的阴影估计的定量结果。
方法 | 反射率 图像 |
|||
---|---|---|---|---|
SSIM( ) |
峰值信噪比( ) |
FID( ) |
||
仅触摸 | 0.27 | 11.6 | 48.7 | |
仅反射率 | 0.46 | 14.5 | 40.7 | |
反射+触摸 | 0.48 | 15.4 | 36.9 |
4.6分析
时间信息的重要性。
我们首先研究添加多个 GelSight 框架到对比视觉触觉嵌入中的效果(图9 )。我们将我们的方法与Touch and Go上的无条件生成和材质类条件生成进行比较。我们发现,与无条件生成相比,条件生成在性能方面提供了很大的改进。我们还观察到,以预训练模型为条件的生成明显优于没有预训练的生成。有趣的是,以材料类别为条件的模型优于仅观察单个 GelSight 帧的模型的变化,这表明仅从单个时刻感知触摸信号可能比材料类别提供的信息更少。为模型提供额外的帧可以显着改善模型,其中 5 帧模型获得了整体最佳性能。
可控图像风格化
5结论
我们提出了一种视觉触觉扩散模型,该模型统一了之前的跨模态合成任务,并使我们能够解决新问题。我们是第一个通过触摸在自然场景中生成逼真图像的人(反之亦然),无需任何基于图像的调节。我们还展示了生成逼真的“无手”图像并解决新颖的触觉驱动的阴影估计任务的能力。最后,我们在触觉驱动的风格化任务上获得了比之前的工作更加真实的结果。我们认为我们的工作是朝着整合触觉感知和生成建模领域迈出的一步。
局限性。
由于我们的工作可用于创建虚假图像,因此一个潜在的问题是它可能会被用来创建虚假信息。此外,由于触摸主要传达材料特性和微观几何形状,生成的图像在语义上通常与地面实况不同。
致谢。
我们感谢 Chao Feng、Ziyang Chen 和 Shaokai Wu 对可视化的有益讨论和帮助。这项工作得到了思科系统公司的部分支持。
References
- [1] Omri Avrahami, Dani Lischinski, and Ohad Fried. Blended diffusion for text-driven editing of natural images. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 18187–18197, 2021.
- [2] Harry Barrow, J Tenenbaum, A Hanson, and E Riseman. Recovering intrinsic scene characteristics. Comput. vis. syst, 2(3-26):2, 1978.
- [3] Sean Bell, Kavita Bala, and Noah Snavely. Intrinsic images in the wild. ACM Trans. on Graphics (SIGGRAPH), 33(4), 2014.
- [4] Roberto Calandra, Andrew Owens, Manu Upadhyaya, Wenzhen Yuan, Justin Lin, Edward H Adelson, and Sergey Levine. The feeling of success: Does touch sensing help predict grasp outcomes? Conference on Robot Learning (CoRL), 2017.
- [5] Arkadeep Narayan Chaudhury, Timothy Man, Wenzhen Yuan, and Christopher G Atkeson. Using collocated vision and tactile sensors for visual servoing and localization. IEEE Robotics and Automation Letters, 7(2):3427–3434, 2022.
- [6] Zehua Chen, Xu Tan, Ke Wang, Shifeng Pan, Danilo P. Mandic, Lei He, and Sheng Zhao. Infergrad: Improving diffusion models for vocoder by considering inference in training. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 8432–8436, 2022.
- [7] Ze Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xuejiao Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, and Danilo P. Mandic. Resgrad: Residual denoising diffusion probabilistic models for text to speech. ArXiv, abs/2212.14518, 2022.
- [8] Shin-I Cheng, Yu-Jie Chen, Wei-Chen Chiu, Hung-Yu Tseng, and Hsin-Ying Lee. Adaptively-realistic image generation from stroke and sketch with diffusion model. In IEEE Winter Conference on Applications of Computer Vision (WACV), 2023.
- [9] James J Cox, Frank Reimann, Adeline K Nicholas, Gemma Thornton, Emma Roberts, Kelly Springell, Gulshan Karbani, Hussain Jafri, Jovaria Mannan, Yasmin Raashid, et al. An scn9a channelopathy causes congenital inability to experience pain. Nature, 444(7121):894–898, 2006.
- [10] Mark R. Cutkosky, Robert D. Howe, and William R. Provancher. Force and tactile sensors. In Springer Handbook of Robotics, 2008.
- [11] Ahmad Darkhalil, Dandan Shan, Bin Zhu, Jian Ma, Amlan Kar, Richard Higgins, Sanja Fidler, David Fouhey, and Dima Damen. Epic-kitchens visor benchmark: Video segmentations and object relations. In Proceedings of the Neural Information Processing Systems (NeurIPS) Track on Datasets and Benchmarks, 2022.
- [12] Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat GANs on image synthesis. In A. Beygelzimer, Y. Dauphin, P. Liang, and J. Wortman Vaughan, editors, Advances in Neural Information Processing Systems, 2021.
- [13] Mucong Ding, Kezhi Kong, Jingling Li, Chen Zhu, John P. Dickerson, Furong Huang, and Tom Goldstein. Vq-gnn: A universal framework to scale up graph neural networks using vector quantization. In Neural Information Processing Systems, 2021.
- [14] Chao Feng, Ziyang Chen, and Andrew Owens. Self-supervised video forensics by audio-visual anomaly detection. Computer Vision and Pattern Recognition (CVPR), 2023.
- [15] Ruohan Gao, Yen-Yu Chang, Shivani Mall, Li Fei-Fei, and Jiajun Wu. Objectfolder: A dataset of objects with implicit visual, auditory, and tactile representations. In CoRL, 2021.
- [16] Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, and Jiajun Wu. The objectfolder benchmark: Multisensory learning with neural and real objects. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 17276–17286, June 2023.
- [17] Ruohan Gao, Zilin Si, Yen-Yu Chang, Samuel Clarke, Jeannette Bohg, Li Fei-Fei, Wenzhen Yuan, and Jiajun Wu. Objectfolder 2.0: A multisensory object dataset for sim2real transfer. In CVPR, 2022.
- [18] Sang gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sung-Hoon Yoon, and Tie-Yan Liu. Priorgrad: Improving conditional denoising diffusion models with data-dependent adaptive prior. In International Conference on Learning Representations, 2021.
- [19] Roger Grosse, Micah K Johnson, Edward H Adelson, and William T Freeman. Ground truth dataset and baseline evaluations for intrinsic image algorithms. In 2009 IEEE 12th International Conference on Computer Vision, pages 2335–2342. IEEE, 2009.
- [20] Carolina Higuera, Byron Boots, and Mustafa Mukadam. Learning to read braille: Bridging the tactile reality gap with diffusion models. arXiv preprint arXiv:2304.01182, 2023.
- [21] Jonathan Ho, Ajay Jain, and P. Abbeel. Denoising diffusion probabilistic models. 2020.
- [22] Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. J. Mach. Learn. Res., 23:47:1–47:33, 2021.
- [23] Fabian Hutmacher. Why is there so much more research on vision than on any other sensory modality? Frontiers in psychology, 10:2246, 2019.
- [24] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. CVPR, 2017.
- [25] Wei Ji, Long Chen, Yinwei Wei, Yiming Wu, and Tat-Seng Chua. Mrtnet: Multi-resolution temporal network for video sentence grounding. arXiv preprint arXiv:2212.13163, 2022.
- [26] Wei Ji, Xi Li, Fei Wu, Zhijie Pan, and Yueting Zhuang. Human-centric clothing segmentation via deformable semantic locality-preserving network. volume 30, pages 4837–4848. IEEE, 2019.
- [27] Wei Ji, Xiangyan Liu, An Zhang, Yinwei Wei, and Xiang Wang. Online distillation-enhanced multi-modal transformer for sequential recommendation. In Proceedings of the 31th ACM international conference on Multimedia, 2023.
- [28] Micah K Johnson and Edward H Adelson. Retrographic sensing for the measurement of surface texture and shape. In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pages 1070–1077. IEEE, 2009.
- [29] Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Hui-Tang Chang, Tali Dekel, Inbar Mosseri, and Michal Irani. Imagic: Text-based real image editing with diffusion models. ArXiv, abs/2210.09276, 2022.
- [30] Alexander Kirillov, Yuxin Wu, Kaiming He, and Ross B. Girshick. Pointrend: Image segmentation as rendering. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9796–9805, 2019.
- [31] Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, and Bryan Catanzaro. Diffwave: A versatile diffusion model for audio synthesis. ArXiv, abs/2009.09761, 2020.
- [32] Max W. Y. Lam, Jun Wang, Dan Su, and Dong Yu. BDDM: Bilateral denoising diffusion models for fast and high-quality speech synthesis. In International Conference on Learning Representations, 2022.
- [33] Susan J. Lederman and Roberta L. Klatzky. Hand movements: A window into haptic object recognition. Cognitive Psychology, 19:342–368, 1987.
- [34] Susan J. Lederman and R. L. Klatzky. Tutorial review haptic perception: A tutorial. 2009.
- [35] Yichong Leng, Zehua Chen, Junliang Guo, Haohe Liu, Jiawei Chen, Xu Tan, Danilo P. Mandic, Lei He, Xiang-Yang Li, Tao Qin, Sheng Zhao, and Tie-Yan Liu. Binauralgrad: A two-stage conditional diffusion probabilistic model for binaural audio synthesis. ArXiv, abs/2205.14807, 2022.
- [36] Nathan F. Lepora, Yijiong Lin, Ben Money-Coomes, and John Lloyd. Digitac: A digit-tactip hybrid tactile sensor for comparing low-cost high-resolution robot touch. IEEE Robotics and Automation Letters, 7:9382–9388, 2022.
- [37] Tingle Li, Yichen Liu, Andrew Owens, and Hang Zhao. Learning visual styles from audio-visual associations. In ECCV, 2022.
- [38] Yunzhu Li, Jun-Yan Zhu, Russ Tedrake, and Antonio Torralba. Connecting touch and vision via cross-modal prediction. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10601–10610, 2019.
- [39] Justin Lin, Roberto Calandra, and Sergey Levine. Learning to identify object instances by touch: Tactile recognition via multimodal matching. In 2019 International Conference on Robotics and Automation (ICRA), pages 3644–3650. IEEE, 2019.
- [40] David J Linden. Touch: The science of the hand, heart, and mind. Penguin Books, 2016.
- [41] Yunfei Liu, Yu Li, Shaodi You, and Feng Lu. Unsupervised learning for intrinsic image decomposition from a single image. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3248–3257, 2020.
- [42] Shitong Luo and Wei Hu. Diffusion probabilistic models for 3d point cloud generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2021.
- [43] Paul R Manske. The sense of touch. Journal of Hand Surgery, 24(2):213–214, 1999.
- [44] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. SDEdit: Guided image synthesis and editing with stochastic differential equations. In International Conference on Learning Representations, 2022.
- [45] Alex Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. ICML, abs/2102.09672, 2021.
- [46] Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: Towards photorealistic image generation and editing with text-guided diffusion models. In International Conference on Machine Learning, 2021.
- [47] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018.
- [48] Brian O’Shaughnessy. The sense of touch. Australasian journal of philosophy, 67(1):37–58, 1989.
- [49] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
- [50] Tanzila Rahman, Hsin-Ying Lee, Jian Ren, S. Tulyakov, Shweta Mahajan, and Leonid Sigal. Make-a-story: Visual memory conditioned consistent story generation. ArXiv, abs/2211.13319, 2022.
- [51] Robin Rombach, A. Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10674–10685, 2022.
- [52] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, 2015.
- [53] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L. Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, Seyedeh Sara Mahdavi, Raphael Gontijo Lopes, Tim Salimans, Jonathan Ho, David J. Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. ArXiv, abs/2205.11487, 2022.
- [54] Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement. IEEE transactions on pattern analysis and machine intelligence, PP, 2021.
- [55] Ruizhi Shao, Zerong Zheng, Hongwen Zhang, Jingxiang Sun, and Yebin Liu. Diffustereo: High quality human reconstruction via diffusion-based stereo using sparse cameras. In ECCV, 2022.
- [56] Uriel Singer, Adam Polyak, Thomas Hayes, Xiaoyue Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, and Yaniv Taigman. Make-a-video: Text-to-video generation without text-video data. ArXiv, abs/2209.14792, 2022.
- [57] Abhishek Sinha, Jiaming Song, Chenlin Meng, and Stefano Ermon. D2c: Diffusion-denoising models for few-shot conditional generation. ArXiv, abs/2106.06819, 2021.
- [58] Linda Smith and Michael Gasser. The development of embodied cognition: Six lessons from babies. Artificial life, 2005.
- [59] Ian Taylor, Siyuan Dong, and Alberto Rodriguez. Gelslim 3.0: High-resolution measurement of shape, force and slip in a compact tactile-sensing finger. 2022 International Conference on Robotics and Automation (ICRA), pages 10781–10787, 2021.
- [60] Yonglong Tian, Dilip Krishnan, and Phillip Isola. Contrastive multiview coding. In European conference on computer vision, pages 776–794. Springer, 2020.
- [61] L.-T. Wang, Nathan E. Hoover, Edwin H. Porter, and John J. Zasio. Ssim: A software levelized compiled-code simulator. 24th ACM/IEEE Design Automation Conference, pages 2–8, 1987.
- [62] Akihiko Yamaguchi and Christopher G Atkeson. Implementing tactile behaviors using fingervision. In 2017 IEEE-RAS 17th International Conference on Humanoid Robotics (Humanoids), pages 241–248. IEEE, 2017.
- [63] Fengyu Yang and Chenyang Ma. Sparse and complete latent organization for geospatial semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1809–1818, 2022.
- [64] Fengyu Yang, Chenyang Ma, Jiacheng Zhang, Jing Zhu, Wenzhen Yuan, and Andrew Owens. Touch and go: Learning from human-collected vision and touch. Neural Information Processing Systems (NeurIPS) - Datasets and Benchmarks Track, 2022.
- [65] Wenzhen Yuan, Siyuan Dong, and Edward H. Adelson. Gelsight: High-resolution robot tactile sensors for estimating geometry and force. Sensors (Basel, Switzerland), 17, 2017.
- [66] Wenzhen Yuan, Chenzhuo Zhu, Andrew Owens, Mandayam A Srinivasan, and Edward H Adelson. Shape-independent hardness estimation using deep learning and a gelsight tactile sensor. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 951–958. IEEE, 2017.
- [67] Chenhao Zheng, Ayush Shrivastava, and Andrew Owens. Exif as language: Learning cross-modal associations between images and camera metadata. Computer Vision and Pattern Recognition (CVPR), 2023.
- [68] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.
We provide additional details about our method, and provide qualitative results for our generation tasks.
Appendix A Model Architecture and Implementation Details
We provide additional details about the latent diffusion model, such as the training hyperparameters.
Hyperparamter | Value | Hyperparamter | Value |
---|---|---|---|
Learning Rate | LDM Model | U-Net | |
Image Size | 256 | LDM Input Size | 64 |
Channel | 3 | LDM Input Channel | 3 |
Conditioning Key | Crossattn | LDM Output Channel | 3 |
First Stage Model | VQModelInterface | LDM Attention Resolutions | [8,4,2] |
VQ In-channel | 3 | LDM Num Resblocks | 2 |
VQ Out-channel | 3 | LDM Channel Mult | [1,2,3,5] |
VQ Num. Resblocks | 2 | LDM Num Head Channels | 32 |
VQ dropout | 0.0 | LDM Use Spatial Transformer | True |
Condition Model | CVTP ResNet-18 | LDM Transformer Depth | 1 |
Condition Layer | 5 | LDM Context Dim | 512 |
Condition Frame | 5 | Batch Size | 48 |
Cond Stage Trainable | True | Monitor | val/loss_simple_ema |
Diffusion Timesteps | 1000 | Epoch | 30 |
Scheduler | DDPM |
Appendix B More Qualitative Results
We provide additional results visuo-tactile cross generation, tactile-driven stylization and tactile-driven shading estimation.