字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE( 二 )


字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
MINE可以利用structure-from-motion计算的相机参数与点云进行场景的学习 , 在这种情况下 , 深度是ambiguous的 。 由于在这个方法中 , 深度采样的范围是固定的 。 所以需要计算一个scalefactor , 使网络预测的scale与structure-from-motion的scale进行对齐 。 团队利用通过StructurefromMotion获得的每个图片的可见3D点P以及网络预测的深度图Z计算scalefactor:
字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
获得scalefactor后 , 对相机的位移进行scale:
字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
需要注意的是 , 由于需要和groundtruth比较 , 所以在训练和测试时需要做scalecalibration 。 而在部署时不需要做这一步 。
端到端的训练
MINE可以仅通过RGB图片学习到场景的三维几何信息 , 训练Loss主要由两部分组成:
1.Reconsturctionloss——计算渲染出的target图片与groundtruth的差异:
字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
2.Edge-awaresmoothnessloss——确保在图片颜色没有突变的地方 , 深度也不会突变 , 这里主要参考了monodepth2[6]种的实现:
字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
3.Sparsedisparityloss——在训练集各场景的scale不一样时 , 利用structure-from-motion获得的稀疏点云辅助场景几何信息的学习:
字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
实验结果
新视角合成
字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
在KITTI数据集上 , 可以看出 , 此方法在生成质量上大幅超越了当前的SOTA——把SSIM从0.733提高到了0.822 。 同时 , 可看出增加预测的平面数 , 生成图片的质量也会提高 , 由于这并不会改变模型的参数量 , 所以可以看出 , 采样平面的深度越稠密 , 就越利于场景表达的学习 。 在图片可视化上 , MINE生成的图片形变和artefacts明显更少 。
单目深度估计
利用在RealEstate10K上训练的模型 , 在NYU以及iBims-1数据集上测试了单目深度估计的结果 。 虽然只有RGB和sparse深度监督 , 但MINE在单目深度估计任务上取得了非常接近全监督的3DKenBurns的性能 , 并大幅超越了其他弱监督的方法 。 其中 , 和MPI相比 , 此方法更不受图片texture的影响 , 在texture丰富的区域依然能生成平滑的深度图 。
字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE
文章图片
MINE与MPI、NeRF的比较
MINE是MPI的一种连续深度的扩展 , 相比于MPI和NeRF , MINE有几个明显的优势:
与NeRF相比 , MINE能够泛化到训练集没有出现过的场景;与NeRF的逐点渲染相比 , MINE的渲染非常高效;与MPI相比 , MINE的深度是连续的 , 能稠密地表示相机的视锥;MPI通过alpha合成(alphacompositing)进行渲染 , 但该方法与射线上点之间的距离无关 , 而MINE利用volumerendering解决了这个限制 。然而 , MINE也有一些自身的局限性:
由于输入是单张图片 , MINE无法表达相机视锥以外的三维空间;由于MINE的输入里没有观察角度 , 所以其无法对一些复杂的view-dependent效果(如光盘上的彩虹等)进行建模 。参考文献:
[1].TinghuiZhou,RichardTucker,JohnFlynn,GrahamFyffe,NoahSnavely.StereoMagnification:LearningViewSynthesisusingMultiplaneImages.(SIGGRAPH2018)
[2].BenMildenhall,PratulP.Srinivasan,RodrigoOrtiz-Cayon,NimaKhademiKalantari,RaviRamamoorthi,RenNg,AbhishekKar.LocalLightFieldFusion:PracticalViewSynthesiswithPrescriptiveSamplingGuidelines.(SIGGRAPH2019)