ch温故而知新，6位顶级CV科学家聚首：计算机视觉中的深度学习方法vs传统方法

文章插图

作者 | Mr Bear
编辑 | 青暮
2021 年 10 月 13 日，来自麻省理工学院、加州大学伯克利分校、伊利诺伊大学香槟分校、华盛顿大学、帝国理工学院的六名顶级人工智能科学家、计算机视觉科学家在 ICCV 2021 大会期间进行了题为「A discussion about deep learning vs classical methods and their roles in computer vision」的学术讨论。
参与讨论的嘉宾包括 Aude Oliva（MIT-IBM Watson 人工智能实验室）、Svetlana Lazebnik（伊利诺伊大学香槟分校）、Jitendra Malik（加州大学伯克利分校）、Andrew Davison（帝国理工大学）、Richard Szeliski（华盛顿大学）、Alexei Efros（加州大学伯克利分校）。
1深度学习 vs 传统方法

文章插图

Richard Szeliski 首先抛砖引玉，发表了题为「Deep vs Classical Methods」的简短演讲。Richard 提到，在设置人工智能专业课程时，一个广为讨论的话题是：我们是否应该讲授深度学习之前的传统方法？还是直接通过深度学习解决所有的问题？
为此，Richard 在过去的四年中持续更新他的计算机视觉教科书（https://szeliski.org/Book）。相较于早先的版本，该书加入了信号处理、优化技术等章节，这些知识经常被用于计算机视觉的各个领域。在「Deep Learning」和「Recognition」两个章节中，Richard 分别介绍了深度学习的基本原理（传统的网络架构），以及一些更加复杂的技术（例如，分割、目标检测、视觉和语言）。

文章插图

实际上，在华盛顿大学「计算机视觉」的课程安排中，老师们会首先介绍经典的信号处理算法，接着介绍神经网络和深度学习。在此基础上，老师们会进而讲解一些经典的技术和应用（例如，3D 计算摄影、神经渲染等）。

文章插图

密歇根大学的计算机视觉课程 EECS 442 将期中的很大一部分内容设置为深度学习相关的内容，但在此之前也会介绍经典的信号处理、特征提取技术。最后，教师会讲解 3D 视觉和经典计算机视觉的内容。此外，这门课的任课教师 Justin Johnson 还专门针对神经网络开设了一门课程，更为详细地介绍了循环神经网络、Transformer 等内容。

文章插图

尽管深度学习已经成为了计算机视觉领域的主流方法，但是仅仅依靠深度学习技术是否能解决所有的计算机视觉问题呢？在论文「What Do Single-view 3D Reconstruction Networks Learn?」中，在基于 ShapeNet 进行 3D 重建时，网络只是在识别对象的类别，然后细化形状，并没有很好地利用图像的底层信息。

文章插图

以视觉定位任务为例，一些基于深度学习的方法只是记住了图片出现的场景，在定位时进行猜测。如果查询并没有沿着路径，则回归的结果可能始终会被引导到出发点。该过程中并没有任何的 3D 推理，没有利用 3D 几何结构。

文章插图

另一方面，利用语义信息完成 3D 重建等任务也是一条很好的思路。论文「Joint 3D Scene Reconstruction and Class Segmentation」发表于 2013 年，那时是深度学习兴起的早期阶段。通过识别建筑和树的部位，该方法可以更好地进行 3D 重建，这说明有时引入语义信息是十分有效的。