比尔·盖茨|Facebook新研究：利用深度学习带来拟真手物交互系统微软

文章图片

文章图片

文章图片

手势识别在VR交互中是一个十分重要的技术，被视为计算机理解人体语言的一种必然方式。自从Ouclus在2019年12月正式推出手势追踪功能之后，手势识别的功能在开发者和用户中受到了很大的欢迎。但这也是Oculus在收购了手势识别相关的技术公司时隔4年后，才正式推出的手势追踪功能。
可见，手势交互技术还存在技术难度。
虽然手势识别目前仍受到很多的限制，但在虚拟空间模拟现实中与物体的交互行为上，比起技术难度更大、风险更大的“脑机接口” ，手势识别显得更加直接自然，因此很多的团队都在持续不断地研究手势识别的计算。

图源：Techspot
近日，由Facebook虚拟实验室、爱丁堡大学以及香港大学组成的团队发表了他们在手物交互这方面的最新论文成果《ManipNet: Neural Manipulation Synthesis with a Hand-Object Spatial Representation》。虽然目前这项研究成果还处于初步阶段，但从该团队发表的论文的实验数据来看，这一研究的应用将极大提高手物交互的拟真度和灵巧度，使手势识别技术向着全自由交互迈进的一大步。
ManipNet：
基于手-物体的空间表征算法
根据研究，人们每天平均与140个物体互动，并且这些进行交互的日常物品形态是多种多样的。人们通过复杂的手指动作与物体进行交互，但在VR或AR体验中，由于控制器无法产生自然且真实的手部动作，会导致体验沉浸感遭到破坏。想要达到完全的自然沉浸感，关键在于如何基于计算机算法，模拟出人手部自然交互操作上的细微变化。
目前，手势识别的技术主要是通过训练机器学习来实现的，人们自然情况下的手部操作是依靠复杂的手指动作呈现的，如果依靠单纯的数据学习方式学习手的灵巧操作将需要大量的数据。因此鉴于行业内深度学习研究的成功，该团队提出一个名为ManipNet的深度神经网络算法。所谓的深度神经网络是机器学习的一个分支，是通过人工神经网络为架构，对输入资料进行表征学习的算法。

图源：网络
ManipNet是该团队研究人员利用手-物体的空间关系特征，直接从数据中学习手部的自然操作行为的深度学习算法。团队计划通过对有限的物体数据样本的学习扩展到几何变化上。也就是说，通过对小量物体形状的深度学习类推到不同几何变化的物体上。
该团队表示，他们研究的空间表征算法结合了作为体素占比（三维空间分割上的最小单位）的整体物体形状和作为最近距离样本的物体局部的几何细节。这种算法使得深度神经网络可以通过从手腕和物体的输入轨迹中模拟手指运动。
具体来说就是该团队为ManipNet提供了几个时间节点的手指运动轨迹，过去、现在、未来，以及这些轨迹中提取的空间表征，然后深度神经网络会根据这些已有的数据生成一个自回归模型，预测从过去、现在到未来这几个节点之间缺少的其他手指姿态。
如图1所示， ManipNet是从控制信号和物体几何特征中预测对象操纵的手指姿态，其中控制信号是手腕和物体的6D轨迹，并且该深度神经网络的学习公式需要一个最小的和明确的输入表示，以便实现更好的泛化。