弥平仿真与现实的鸿沟:李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集( 二 )
具体而言 , 我们为每个物体构建的「元数据」包含从真实产品的公开网页上获取的物体的类型、材料、颜色、尺寸等信息 。 我们根据物体的材料类型清洗了数据集 , 只保留下材料类型为「陶瓷、玻璃、木材、塑料、铁、聚碳酸酯、钢」的物体 , 并对数据的正确性进行了人工验证 。
本文的主要贡献如下:
(1)发布了一个新的大型3D物体多感官数据集 , 物体以隐式神经保证的形式存在 , 该数据集的规模是现有的OBJECTFOLDER1.0的十倍 。 我们显著提升了视觉、听觉、触觉的多感官渲染质量 , 渲染速度快了数个数量级 。
(2)我们说明了 , 使用本数据集学习的模型可以被成功迁移到一系列真实世界任务上 , 为计算机视觉和机器人学的多感官学习提供了新的研究路径和测试平台 。
2多感官仿真及隐式表征如图1所示 , 相较于离散的传统信号表征 , 隐式表征具有许多优势 。 我们可以将每个感官模态参数化表示为一个连续函数 , 该函数将外部参数(例如 , 视觉上的相机视角、光照条件 , 听觉上的冲击强度 , 触觉上的凝胶变形)映射为特定位置或条件下相应的感官信号 。 隐式神经表征是我们通过神经网络得到的对该连续函数的近似 , 这使得存储原始感观数据的内存与外部参数相互独立 , 用户可以轻松地获取隐式表征 。 此外 , 由于隐式神经表征是连续的 , 我们可以以任意分辨率对感观数据进行采样 。
文章图片
图3:用于生成隐式表征的「ObjectFile」网络包含三个子网络:VisionNet、AudioNet、TouchNet 。
与OBJECTFOLDER1.0相比 , 我们通过用数千个独立的多层感知机(MLP)表征每个物体加速了VisionNet的推理;就AudioNet而言 , 我们只预测信号中与位置相关的部分 , 而不是直接预测声波频谱图 , 大大提高了渲染质量 , 同时加快了推理速度;新的TouchNet可以渲染具有各种旋转角度和凝胶变形的触觉读数 , 而OBJECTFOLDER1.0的每个顶点只能渲染单个触觉图像 。
文章图片
图4:OBJECTFOLDER2.0中的视觉、听觉、触觉数据渲染结果相较于OBJECTFOLDER1.0有显著提升(以YCB数据集中的杯子为例) 。
视觉——VisionNet
我们在KiloNeRF的基础上构建了KiloOSF作为VisionNet 。 KiloNeRF使用了多个独立的小MLP表征静态场景 , 而不是使用单个MLP表征整个场景 。 每个独立的MLP处理场景的一小部分 , 足以进行逼真的图像渲染 。
类似地 , 我们将每个物体细分为均匀分辨率的网格 , 每个网格单元的3D索引为 。 从位置x到索引i的映射m可以表示为:
其中 , 和分别为轴对齐边界框(AABB)的最小和最大界 。 对于每个网格单元 , 我们利用带有参数的MLP网络表征相应的物体部分 。 接着 , 我们首先确定包含点x的网格单元的索引 , 然后查询相应的小MLP , 就可以得该点的r方向上的颜色和密度值:
参考KiloNeRF , 我们使用了「基于蒸馏的学习」策略避免在渲染时产生伪影 。 我们首先针对每个物体训练了一个普通的「以物体为中心的神经散射函数」(OSF) , 然后将每个教师模型的知识蒸馏到KiloOSF模型中 。 我们还使用了空的空间跳转和早期光线终止提升渲染的效率 。
听觉——AudioNet
我们使用为自然环境下的物体网格设计的序贯法将每个对象的表面网格转换为一个体积二阶四面体网格 。 接着 , 我们使用有限元方法(FEM)对生成的四面体网格和有限元分析软件「Abaqus」中的二阶元素执行上述模态分析过程 。 我们对在各轴向上以单位力触碰四面体网格各顶点的振动模式进行了仿真 。 接着 , 我们训练了一个以四面体网格顶点坐标作为输入的多层感知机 , 并预测该顶点在各轴向上被单位力触碰时每个模式下的增益向量 。
- 瑞思教育股东大会批准与NaaS合并 转行综合性电动汽车充电服务
- |国美与腾讯达成战略合作 加速推动全零售生态共享平台建设
- 爱彼迎|同为2000元价位段,骁龙778G与骁龙870的差距有多大?别选错
- 欧洲再传来利好消息,重罚苹果2400亿,支持鸿蒙系统与安卓竞争
- 汽车|唐山一雪佛兰轿车与火车发生碰撞!网友:火车头至少掉点漆
- 机箱|电脑突然断电,与这几种原因有关,逐一排查即可解决
- 游戏本|最新酷睿i7与RTX 3060加持,战神G8-DA7NP再次成为游戏本普及者
- 量子|与量子“纠缠”的青年科学家
- 量子|新安全协议确保与“对的人”通信
- ABC|动脉粥样硬化斑块能与大脑“对话”