物体|斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」( 三 )

2015年是宋舒然在计算机视觉研究上的「丰收年」。那一年，她在计算机视觉顶会上发表了4篇高引论文，篇篇经典，而彼时距离她入学博士才不过两年时间：

3d shapenets: A deep representation for volumetric shapes（谷歌学术引用3500+）
Shapenet: An information-rich 3d model repository（谷歌学术引用2500+）
Sun rgb-d: A rgb-d scene understanding benchmark suite（谷歌学术引用1100+）
Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop（谷歌学术引用1000+）

宋舒然对AI科技评论介绍，她第一次接触深度学习是在“3D ShapeNets: A Deep Representation for Volumetric Shapes”这篇工作中，经汤晓鸥与吴志荣的带领入门。当时，就读于香港中文大学的吴志荣到普林斯顿交换，宋舒然与他由此结识。
「那时候深度学习还没有那么火。2D视觉开始火起来，但把深度学习用于3D视觉的研究还几乎没有。我当时完全没有做过深度学习的研究，只是做过一些比较传统的2D识别与检测。因为志荣在汤晓鸥的组里做了很多深度学习的研究，所以我们就把他拉过来一起合作。」宋舒然回忆道。
开辟性的工作往往艰难重重。宋舒然记得，当时他们在合作的过程中遇到了很多困难，其中最大的困难是没有成熟的机器学习库或框架去支持深度学习系统的搭建，「只有贾扬青提出的Caffe，而且比较初期的Caffe并不支持计算机视觉的操作」。
所以他们当时的研究重点就放在了如何开发系统、将2D算法转化为可以接受3D数据上。他们当时的想法其实非常简单 –从2D pixel 表征方式转化成 3D voxel 的表征方式。虽然现在看来这个方法有很多明显的缺陷（需要大量的显存空间）, 但好处是可以沿用很多传统的2D 算法，比如卷积。

文章插图

图注：3D ShapeNets（2015）的转换原理
这是第一个成功通过深度学习方法将2.5D延伸到3D上的视觉工作。在此之前，深度学习多用在2D图像或自然语言处理上。「3D ShapeNets」首次展示了深度学习系统如何学习形状表征的过程，且通用性强，可以应用在多个不同的任务上，在计算机视觉领域产生了深远的影响。
对于宋舒然来说，这个工作既是她研究生涯中的一个里程碑，也是启发她在研究中采用「简单而高效」的方法论的起点：
「它很简单，但非常高效，唯一的限制是对算力的需求加大，因为数据的维度提升，计算量也会随之增长。此外，这是我第一次研究3D，我之后的许多工作都延续了这个项目的idea（观点），即用3D深度学习系统做形状表征。」
凭借在计算机视觉方向（尤其是数据驱动的3D场景理解）的一系列出色工作，宋舒然获得2015年Facebook博士生奖学金。她的工作登上普林斯顿研究校刊，还入选了「普林斯顿25岁以下创新25人」。

文章插图

图注：宋舒然在普林斯顿读博期间

3、从视觉到机器人
机器人对现实世界的感知准确率依赖于视觉中的3D语义场景完成技术。宋舒然在3D视觉上的研究突破奠定了她从事机器人视觉研究的基础。
从2016年提出「Deep Sliding Shapes」后，她就开始在研究视觉之余探索如何用3D视觉提高机器人推理周围环境的物体的能力。彼时，计算机视觉正越来越多地从分析单个静止图像转向理解视频和空间数据，对机器人的智能提升是一大利好。

文章插图