物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用( 二 )


在监督学习所用到的参数上,可用的包括深度、关键点、边界框、多视图4类;而在测试部分,则包括2D转3D、语义和场景3种方式。


物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用
文章插图

可以看见,绝大多数网络都没办法同时实现2D转3D、在还原场景的同时还能包含清晰的语义。即使有两个网络也实现了3种方法,他们也采用了深度和边界框两种参数进行监督,而非完全通过自监督进行模型学习。
这一方法,让模型在不同的数据集上都取得了不错的效果。
无论是椅子、球体数据集,还是字母、光影数据集上,模型训练后生成的各视角照片都挺能打。


物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用
文章插图

甚至自监督的方式,还比加入5%监督(Super5)和10%监督(Super10)的效果都要更好,误差基本更低。

物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用
文章插图

而在真实场景上,模型也能还原出照片中的3D物体形状。例如给出一只兔子的照片,在进行自监督训练后,相比于真实照片,模型基本还原出了兔子的形状和颜色。


物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用
文章插图

不仅单个物体,场景中的多个3D物体也都能同时被还原出来。

物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用
文章插图

当然,这也离不开“好奇心驱动”这种方法的帮助。事实上,仅仅是增加“好奇心驱动”这一部分,就能降低不少参数错误率,原模型(NonCur)与加入好奇心驱动的模型(Our)在不同数据集上相比,错误率平均要高出10%以上。


物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用
文章插图

不需要任何外部标记,这一模型利用几张照片,就能生成3D关系、还原场景。作者介绍
3位作者都来自伦敦大学学院。


物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用
文章插图

一作David Griffiths,目前在UCL读博,研究着眼于开发深度学习模型以了解3D场景,兴趣方向是计算机视觉、机器学习和摄影测量,以及这几个学科的交叉点。

物体|无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用
文章插图

Jan Boehm,UCL副教授,主要研究方向是摄影测量、图像理解和机器人技术。Tobias Ritschel,UCL计算机图形学教授,研究方向主要是图像感知、非物理图形学、数据驱动图形学,以及交互式全局光照明算法。
有了这篇论文,设计师出门拍照的话,还能顺便完成3D作业?