弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集( 四 ) 李飞飞、吴佳俊等人发布多感

在与形状已知的物体交互时，准确识别交互的位置是十分重要的。碰撞提供了关于接触位置的局部信息，而在不同表面位置的碰撞会产生不同的模态增益。我们研究了使用碰撞声和/或与接触相关的触觉读数进行触点定位的可能性。
我们通过粒子滤波（particlefiltering）定位接触位置的序列，收集这些位置的触觉读数或碰撞声音。对于触觉，我们使用一个预训练的FCRN网络中提取特征，用于根据触觉图像进行深度预测。对于听觉，我们从每3秒的碰撞声中提取MFCC特征。我们将这些特征与代表候选接触位置的物体表面采样的粒子进行比较。与实际的触觉传感器读数或碰撞声音特征相似度得分高的粒子被认为更有可能是真正的接触位置。

文章图片
表2：「听觉-触觉」触点定位。
我们使用与真实标注触点位置的平均欧氏距离作为评估度量。实验结果表明，基于触觉的触点定位相较于基于听觉的定位更加准确。

文章图片
图5：基于触觉和听觉的触点定位的可视化结果。
「视觉-触觉」形状重建
单图像形状重建在视觉领域被广泛研究。然而，在有遮挡的情况下，触觉信号对于感知物体形状则极具价值。视觉可以提供粗略的全局上下文，而触觉提供精确的局部几何特性。在这里，我们训练模型根据包含物体和/或物体表面的一系列触觉读数的单张RGB图像重建三维对象的形状。
我们使用PCN网络作为该任务的测试平台。对于触觉，我们使用32个触觉读数，并根据相应的触摸姿势将相关的变形映射到稀疏的点云上。将稀疏的点云作为PCN网络的输入，生成密集完整的点云。在视觉方面，我们没有使用一系列局部触点图作为物体的部分观测数据，而是使用ResNet-18网络根据包含物体的单张图像中提取的全局特征来监督形状补全过程。对于基于视觉和触觉的形状重建，我们使用双流网络，使用全连接层将根据两种模态预测的点云合并，以预测最终的密集点云。

文章图片
表3：基于视觉和触觉的形状重建。
与使用6个物体的平均真实网格作为预测的平均对比基线相比，使用单张图像的形状重建和使用触摸读数序列的重建效果要好得多。结合来自两种模式的几何线索通常可以获得最佳的Sim2Real迁移性能。

文章图片
图6：基于视觉和触觉的形状重建可视化结果。

文章图片
雷峰网雷峰网