弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集李飞飞、吴佳俊等人发布多感

文章图片
李飞飞、吴佳俊等人发布多感官物体数据集OBJECTFOLDER2.0 。是否准备好从ImageNet时代走向OBJECTFOLDER时代？编译｜OGAI
编辑｜陈彩娴近年来，以物体为中心的多传感器学习显示出了巨大的潜力。然而，以往的物体建模工作与现实的差距还很大。为此，李飞飞团队曾发布OBJECTFOLDER1.0据集，包含100个具有视觉、听觉和触觉数据的虚拟物体。然而，该数据集的规模较小，多传感器数据的质量较低，让利用该数据集训练的模型不能很好地泛化到现实场景中。
【弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集】在本文中，李飞飞、吴佳俊团队重磅发布了大规模的多感官家居物品数据集OBJECTFOLDER2.0 ，这些数据以一种隐式神经表征的形式存在。相较于OBJECTFOLDER1.0 ，该数据集有三大提升：（1）数据集的规模为前者的10倍，渲染时间也快了几个数量级（2）显著提升了所有三种模态的多感官渲染质量（3）作者说明了，利用该数据集中的虚拟物体学习的模型可以成功地在三个具有挑战性的任务（物体尺寸估计、触点定位、形状重建）。 OBJECTFOLDER2.0为计算机视觉和机器人技术领域的多感官学习提供了新的研究途径和测试平台。

文章图片
论文地址：https://arxiv.org/pdf/2204.02389.pdf代码地址：https://github.com/rhgao/ObjectFolder
1数据集概述在日常生活中，我们会感知和操作各种各样的物体。这些物品的三维形状、外观、材料类型等物理属性各异，具有独特的感觉模式，都有非常不同的物理属性——3d形状、外观和材料类型，这导致它们具有独特的感觉模式：闹钟看起来是圆的、光滑的，用叉子敲击盘子时会发出「叮当声」，触摸刀片时会感到刀的锋利。
然而，以往建模真实世界物体的工作较为局限，与真实世界的差距较大。在计算机视觉领域中，我们往往在二维空间中建模物体，重点关注在静态图像中识别、定位它们。早先的形状建模工作则构建物体的3DCAD模型，但是往往只关注其几何特性，物体的视觉纹理质量也较低。此外，大多数工作都没有关注完整的物理物体属性，只关注单一模态（通常是视觉）。

文章图片
图1：OBJECTFOLDER2.0数据集。
我们旨在构建一个大型的逼真、多感官器的3D物体模型数据集，使利用该数据集中的虚拟物体学习的模型可以被泛化到真实世界的对应物体上。如图1所示，我们利用真实世界物体的现有的高质量扫描，提取其物理特征（例如，视觉纹理、材料类型， 3D形状）。接着，我们根据物体的固有物理属性，对其视觉、听觉、触觉数据进行仿真，并使用了一个隐式神经表征网络「ObjectFile」对仿真的多感官数据进行编码。如果感知到的数据足够逼真，利用这些虚拟物体学习到的模型就可以被迁移到包含这些物体的真实世界任务中。

文章图片
图2：OBJECTFOLDER2.0数据集中的物体示例。
为此， OBJECTFOLDER2.0数据集应运而生。该数据集包含从网络资源中收集到的1,000个高质量的3D物体。其中， 100个物体来自OBJECTFOLDER1.0数据集， 855个物体来自ABO数据集， 45个物体来自GoogleScannedObjects数据集。相较之下， OBJECTFOLDER2.0相较于1.0版的渲染速度更快、多感官仿真质量更高。我们改进了听觉和触觉仿真架构，从而渲染出更逼真的多感官数据。此外，我们提出了一种新的隐式神经表征网络，可以实时地基于任意的外部参数渲染视觉、听觉、触觉感官数据，这些数据具有目前最佳的质量。我们成功地将利用我们的虚拟物体学习到的模型迁移到了三项具有挑战性的现实世界任务（物体尺寸估计、触点定位、形状重建）上。