苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景

羿阁发自凹非寺
量子位|公众号QbitAI
有了这个发明 , 以后演员拍戏再也不用抠图了?
答:可以直接一键合成 。 (手动狗头)
让我们赶紧来看看 , 这个由苹果最新研发的NeuMan框架:
只需输入一段10s左右的人物视频 , 就能合成该人物在新场景下做着各种新动作的影像 。
前空翻?soeasy!
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
跳舞那也是不在话下 。
这妖娆的舞姿 , 看来NeuMan心里也有一个舞魂~
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
有网友看完就表示:喔~简直是电影界未来的发展方向 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
目前 , 有关NeuMan的研究论文已被ECCV’22收录 , 并且已在GitHub上开源 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
全新场景渲染在介绍NeuMan的原理之前 , 让我们再来欣赏几个酷炫的例子~
如下图所示 , 左上角是输入的训练视频 , 左下角是新的背景 , 右边则是合成后小哥在新背景下跳跃的效果 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
不仅是跳跃这种常规操作 , 广播体操也完全没问题 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
更厉害的是 , NeuMan还可以将上面例子中的两个人合成到一起 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
再加上一个人 , 立马变成魔性的广场舞视频 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
这微笑的小表情 , 真的很难解释不是本人亲自跳的(手动狗头) 。
那么话说回来 , 这个神奇的NeuMan背后的原理是什么呢?
基于NeRF的新突破事实上 , 自从伯克利和谷歌联合打造的NeRF(NeuralRadianceFields神经辐射场)横空出世 , 各种重建三维场景的研究层出不穷 。
NeuMan原理也是基于此 , 简单来说 , 就是用单个视频训练一个人物NeRF模型和一个场景NeRF模型 , 然后再合成在一起生成新的场景 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
首先 , 在训练场景NeRF模型时 , 我们先从输入的视频中提取相机姿态、稀疏场景模型和多视角-立体深度图 。
对于原视频中被人体遮挡的部分 , 则使用MaskR-CNN进行图像实体分割 , 将人体掩模膨胀4倍 , 以确保人体被完全遮蔽 。 此时 , 就能做到仅在背景上训练场景NeRF模型 。
至于人体NeRF模型训练 , 研究人员引入了一种端到端的SMPL优化(end-to-endSMPLoptimization)和纠错神经网络(error-correctionnetwork) 。
SMPL(SkinnedMulti-PersonLinearModel)是一种基于顶点的人体三维模型 , 能够精确地表示人体的不同形状和姿态 。
如下图所示 , 使用端到端的SMPL优化的人体模型 , 能够更好地表现人体的典型体积 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景
文章图片
纠错神经网络则是用来弥补SMPL模型无法表达的细节 。 值得一提的是 , 它只在训练过程中使用 , 在进行全新场景渲染时会被放弃 , 以免造成过度拟合 。
苹果把NeRF玩出新高度:用单个10s视频,就能重构人物动作和场景】接下来 , 在两个模型对齐的阶段 , 研究人员先使用COLMAP解决任意尺度下的对齐问题 。 然后通过假设人类始终与地面有至少一个接触点 , 来进一步估计该场景的比例 。