弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集( 三 ) 李飞飞、吴佳俊等人发布多感

在推理时，我们可以首先利用网络预测每个模态下的的增益，然后对利用网络预测出的增益和通过模态分析得到的频率、阻尼参数化的指数衰减正弦曲线求和，从而预测出物体的脉冲响应。我们进一步将每个顶点上的外部力f分解为沿着三个正交轴方向上的单位力的线性组合。最终的声波可以被表示为：
在OBJECTFOLDER1.0中，我们使用了体积六面体网格记性模态分析，而2.0中使用的更高阶的四面体网格，从而在表征大小相同的情况下，捕获到更精细的特征和表面曲率，也得到了更精确的弹性形变。因此， AudioNet2.0可以对物体的声学属性进行更加精确的建模。此外， AudioNet1.0直接预测复杂的声波频谱，其维度过高，局限于固定的分辨率和时长。 AudioNet2.0则只预测与位置相关的部分信号，然后通过解析获得其它的模式信号。
触觉——TouchNet
我们使用「GelSight」触觉传感器的几何测量值作为触觉读数。为此，我们需要同时对接触的形变和对于形变的光学相应进行仿真。我们的触觉仿真需要实现以下三个目标：（1）针对接触的位置、方向、按压深度灵活地渲染触觉读数（2）为训练TouchNet高效地渲染数据（3）使仿真尽可能与现实情况相近，从而泛化到真实世界的触觉传感器中。
为此，我们采用了下面的双阶段方法来渲染逼真的触觉信号：首先，我们模拟接触区域内的物体形状和非接触区域内的凝胶垫的形状的接触形变图，从而表示接触点的局部形状。我们使用Pyrender对传感器和物体的交互进行仿真，使用GPU加速的OpenGL渲染形变图，实现了700帧/秒的数据生成。
我们使用TouchNet对接触物体各顶点的形变图编码，将每个物体的触觉读数表征为一个8维函数。该函数的输入为物体坐标系中的3D位置， 3D单元接触方向通过参数化，物体陷入凝胶的深度为p ，形变图中的空间位置为。该网络的输出为接触的形变图的像素值。在渲染形变图之后，我们利用目前最先进的GelSight仿真框架Taxim根据形变图渲染触觉RGB图像。
相较之下， OBJECTFOLDER1.0中的TouchNet智能沿着每个顶点的法线方向渲染单张触觉图像，新设计的TouchNet可以生成旋转角度在15°以内、按压深度在0.5-2mm之间的触觉输出。此外，在Taxim的帮助下，形变图到触觉光学输出的映射可以很容易地校准到不同的基于视觉的触觉传感器，产生逼真的触觉光学输出，从而实现Sim2Real的迁移。
3Sim2Real物体迁移我们希望利用OBJECTFOLDER2.0中的虚拟物体学习的模型可以泛化到真实世界的物体上。为此，我们测评了模型在物体尺寸估计、触点定位、形状重建这三个任务上的迁移性能，说明了数据集的有效性。
物体尺寸估计
物体的所有感官模态都与尺寸紧密相关。我们利用OBJECTFOLDER2.0数据集中渲染的多感官数据训练模型，用8个具有视觉、听觉、触觉真实感官数据的物体进行测试。针对视觉和听觉，我们训练了一个ResNet-18预测物体尺寸，其输入为物体的RGB图像或撞击声的幅度频谱。针对触觉，我们使用循环神经网络融合10次连续触摸的读数，实现了基于触觉的尺寸预测。

文章图片
表1：物体尺寸预测结果。
「Random」表示在与我们的模型相同的范围内随机预测尺寸的对比基线。使用OBJECTFOLDER2.0中的多感官数据训练的模型可以更好地泛化到真实世界物体上，证明了仿真的真实性和隐式表征网络编码的准确性。
「触觉-听觉」触点定位