Java|虚拟人的手工前世和AI今生( 八 )


和相对低廉的价格相比 , 更重要的是 , 惯性动捕设备对场地大小没有要求 。
目前一些高端的虚拟主播使用惯性动捕设备做直播已不是什么稀罕事了 。
不过惯性动捕有个小问题 , 随着连续使用时间的增加 , 测量元件会产生累计误差 , 因此使用一段时间后需要重新校准 。 此外 , 尽管已比较友好 , 惯性动捕仍不是特别方便 , 比如使用时需要全身绑上测量单元 , 还需要避免环境中有磁场的影响……
想偷懒的技术宅不会完全满意 。
一定有读者在想 , 我们的个人电脑上都有摄像头 , 如果不用架一屋子摄像头 , 而只依靠一或两个摄像头 , 就像人的双眼一样 , 就能准确识别动作 , 实现动作捕捉该多好啊 。
这个想法其实很多人都有 , 而真正的践行者 , 正是大名鼎鼎的微软 , 产品就是在XBOX上推出的光学和深度摄像头结合的Kinect 。
在Kinect设备的规模化生产以及相应算法处理上 , 微软投入了巨大的人力和财力 。 但很遗憾 , 经过了两代XBOX的实践之后 , Kinect最终被放弃 。 数据显示 , Kinect的累计销量超过了 3500 万台 。 所以Kinect不能说是一款失败的产品 , 至少它在前中期对扩大XBOX品牌的影响力是有功劳的 。 但最终Kinect壮志未酬 , 对微软的很多同学来说 ,都是有遗憾的 。
Kinect黯然离场后 , 它的核心技术仍继续发光发热 。 作为Kinect最初的技术提供商(后期微软已自行做了改良)PrimeSense在Kinect上市三年之后 , 于2013年被苹果公司以3.6亿美元的价格收购 。 所以 , 现在的苹果手机内置深度摄像头 , 且FaceID在原理上和Kinect有相同点 , 就不足为奇了 。
主机游戏娱乐系统行业里 , 当年也有着Sony PS VR手柄体感和XBOX的Kinect体感之争 , 即惯性和视觉路线之争 。 在这个领域里 , 最后视觉路线失败了 。
除了用户交互体验的问题 , Kinect在技术上也受限于当年的硬件性能 , 毕竟只是一个家用娱乐系统的附属设备 , Kinect的摄像头分辨率 , XBOX上的算力限制和内存限制都制约了其对人体动作识别的精度 。
尽管Kinect出师未捷 , 但基于单摄像头的视觉动捕应用仍在继续发展 。 对于个人用户 , 使用单摄像头实现动作捕捉是一个非常实际的需求 。
在今天 , 基于单摄像头的人脸和半身动作捕捉 , 已经是一些二次元虚拟直播软件和短视频APP的标配了 。 但平心而论 , 这些视觉动捕的应用 , 目前只是玩具 , 娱乐一下OK , 尚无法满足工业生产的精度要求 。
为什么说是玩具呢 , 举个简单的例子:市面上仍没有任何一款商业化的视觉动捕软件能很好的捕捉双手十指的动作(如果已经出现了 , 请读者不吝纠正) 。 做不到捕捉肢体动作的细节 , 视觉动捕工具就无法进入生产领域 。
不过让人兴奋的是 , 大数据、深度学习和计算机视觉的进一步结合提供了很多可能性 。 据闻在一些大厂的研究机构里 , 已能看到基于手势动作大数据库+深度学习视觉识别的方式 , 来获得非常精准的单摄像头手势识别结果 。
乐观估计 , 在未来一两年内 , 我们或许就能用上工业精度的单摄像头视觉识别产品了 。
对于独立影视制作而言 , 需求就是简单易用精度OK的真人动捕 , 光学动捕过于奢侈 。 目前首选的方式是惯性动捕设备 , 价格可以接受 ,效果也可以接受 。
而作者所期待的理想方式 , 将是惯性动捕+单摄像头视觉识别的结合 。
这种软硬结合的体系一方面在成本上可以承担;另一方面 , 两个独立捕捉系统可以互相参照和校正 。 以实现更精准的动作捕捉 。