字节跳动利用单张图片做三维重建：将NeRF、MPI结合，提出MINE( 二 ) 机器之心专栏字节跳动视觉技

文章图片
MINE可以利用structure-from-motion计算的相机参数与点云进行场景的学习，在这种情况下，深度是ambiguous的。由于在这个方法中，深度采样的范围是固定的。所以需要计算一个scalefactor ，使网络预测的scale与structure-from-motion的scale进行对齐。团队利用通过StructurefromMotion获得的每个图片的可见3D点P以及网络预测的深度图Z计算scalefactor：

文章图片
获得scalefactor后，对相机的位移进行scale：

文章图片
需要注意的是，由于需要和groundtruth比较，所以在训练和测试时需要做scalecalibration 。而在部署时不需要做这一步。
端到端的训练
MINE可以仅通过RGB图片学习到场景的三维几何信息，训练Loss主要由两部分组成：
1.Reconsturctionloss——计算渲染出的target图片与groundtruth的差异：

文章图片
2.Edge-awaresmoothnessloss——确保在图片颜色没有突变的地方，深度也不会突变，这里主要参考了monodepth2[6]种的实现：

文章图片
3.Sparsedisparityloss——在训练集各场景的scale不一样时，利用structure-from-motion获得的稀疏点云辅助场景几何信息的学习：

文章图片
实验结果
新视角合成

文章图片
在KITTI数据集上，可以看出，此方法在生成质量上大幅超越了当前的SOTA——把SSIM从0.733提高到了0.822 。同时，可看出增加预测的平面数，生成图片的质量也会提高，由于这并不会改变模型的参数量，所以可以看出，采样平面的深度越稠密，就越利于场景表达的学习。在图片可视化上， MINE生成的图片形变和artefacts明显更少。
单目深度估计
利用在RealEstate10K上训练的模型，在NYU以及iBims-1数据集上测试了单目深度估计的结果。虽然只有RGB和sparse深度监督，但MINE在单目深度估计任务上取得了非常接近全监督的3DKenBurns的性能，并大幅超越了其他弱监督的方法。其中，和MPI相比，此方法更不受图片texture的影响，在texture丰富的区域依然能生成平滑的深度图。

文章图片

文章图片
MINE与MPI、NeRF的比较
MINE是MPI的一种连续深度的扩展，相比于MPI和NeRF ， MINE有几个明显的优势：
与NeRF相比， MINE能够泛化到训练集没有出现过的场景；与NeRF的逐点渲染相比， MINE的渲染非常高效；与MPI相比， MINE的深度是连续的，能稠密地表示相机的视锥；MPI通过alpha合成（alphacompositing）进行渲染，但该方法与射线上点之间的距离无关，而MINE利用volumerendering解决了这个限制。然而， MINE也有一些自身的局限性：
由于输入是单张图片， MINE无法表达相机视锥以外的三维空间；由于MINE的输入里没有观察角度，所以其无法对一些复杂的view-dependent效果（如光盘上的彩虹等）进行建模。参考文献：
[1].TinghuiZhou,RichardTucker,JohnFlynn,GrahamFyffe,NoahSnavely.StereoMagnification:LearningViewSynthesisusingMultiplaneImages.(SIGGRAPH2018)
[2].BenMildenhall,PratulP.Srinivasan,RodrigoOrtiz-Cayon,NimaKhademiKalantari,RaviRamamoorthi,RenNg,AbhishekKar.LocalLightFieldFusion:PracticalViewSynthesiswithPrescriptiveSamplingGuidelines.(SIGGRAPH2019)