比尔·盖茨|Facebook新研究：利用深度学习带来拟真手物交互系统( 二 ) 微软

图源：Facebook Research
此外，该团队表示在设计ManipNet时，该算法只处理一个手-物体的“输入” 。团队研究人员通过镜像，运行两次该网络，为双手生成预测图像。 “这种设计允许我们转换手的空间中的输入特征，使我们能够处理交互作用的手的不同组合。 ”
该团队还展示了其系统的运行框架概述，如下图所示。其中手腕和物体的运动轨迹、手部的皮肤网格和物体的三维几何图形作为“输入”对象，深度神经网络ManipNet作为自回归模型，会逐帧输出生成手指的详细姿势。

系统框架（图源：Facebook Research）
为了避免ManipNet对训练出现过度拟合的情况导致预测结果偏差较大，同时提高该系统的通用性，该团队利用了三种类型的虚拟传感器来编码物体的几何形以及与手的空间关系。这三个虚拟传感器以粗体素网格捕捉整体物体形状，以点样式捕捉局部几何细节为样本。

图源：Facebook Research
团队对此解释，虽然整体物体特征有助于系统规划整体姿态和预测未来运动轨迹，但物体的局部特征发挥着更加重要的作用——能够使算法拓展到任何几何形状。
该团队还表示，目前通过从少量的物体形和厨具物品种学习， ManipNet已经能够合成各种手指姿态，以抓取更复杂的几何物体。
“我们在本文中开发的具有高通用性的表示法有可能应用于基于DRL的基于物理的对象操作技术。我们提出了一个神经网络公式来合成使用双手操作物体的手指运动，我们的关键贡献是在操纵中代表手和物体之间的空间关系的特征。 ”
总体看来，该团队在手物交互这一方面做出了以下贡献：
一个基于深度学习的运动合成系统，可以为单/双手的物体操作产生灵巧详细的手指动作；
一种手-物体空间表征的算法，能提高神经网络的通用性；
提供一个手物交互的运动数据集，包括详细的手指运动和16个手-物体的操作运动。
ManipNet或将在VR/AR应用上潜力十足
由于手部活动的灵活度以及因人而异的大小、体积等问题，动画师通常不得不手动设计与捕捉到的全身运动相匹配的手指运动，或者使用单独的设备来产生手指运动。此外，还有数据的可变化性、运动捕捉相机分辨率的提高和追踪手指关节等技术的发展原因，导致当前手物交互方面的研究仍然充满局限性。
该团队在论文中也表示，对物体的灵巧操作是一个相当困难的问题，需要考虑手和物体之间的动态交互，即使通过基于物理基础的模拟，已经开发了操作对象的方法，但这种手-物体操作的开发还有待探索。

图源：网络
即便如此，团队研究人员认为手物交互在游戏和AR/VR实时交互应用中有很大的潜力。
【比尔·盖茨|Facebook新研究：利用深度学习带来拟真手物交互系统】“随着AR/VR硬件在消费者市场的崛起，将我们的系统与其内置对象跟踪相结合为新的互动内容打开了许多创造性的机会。 ”