ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法

ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法
文章插图

作者 | Mr Bear
编辑 | 青暮
2021 年 10 月 13 日,来自麻省理工学院、加州大学伯克利分校、伊利诺伊大学香槟分校、华盛顿大学、帝国理工学院的六名顶级人工智能科学家、计算机视觉科学家在 ICCV 2021 大会期间进行了题为「A discussion about deep learning vs classical methods and their roles in computer vision」的学术讨论。
参与讨论的嘉宾包括 Aude Oliva(MIT-IBM Watson 人工智能实验室)、Svetlana Lazebnik(伊利诺伊大学香槟分校)、Jitendra Malik(加州大学伯克利分校)、Andrew Davison(帝国理工大学)、Richard Szeliski(华盛顿大学)、Alexei Efros(加州大学伯克利分校)。
1深度学习 vs 传统方法
ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法
文章插图

Richard Szeliski 首先抛砖引玉,发表了题为「Deep vs Classical Methods」的简短演讲。Richard 提到,在设置人工智能专业课程时,一个广为讨论的话题是:我们是否应该讲授深度学习之前的传统方法?还是直接通过深度学习解决所有的问题?
为此,Richard 在过去的四年中持续更新他的计算机视觉教科书(https://szeliski.org/Book)。相较于早先的版本,该书加入了信号处理、优化技术等章节,这些知识经常被用于计算机视觉的各个领域。在「Deep Learning」和「Recognition」两个章节中,Richard 分别介绍了深度学习的基本原理(传统的网络架构),以及一些更加复杂的技术(例如,分割、目标检测、视觉和语言)。
ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法
文章插图

实际上,在华盛顿大学「计算机视觉」的课程安排中,老师们会首先介绍经典的信号处理算法,接着介绍神经网络和深度学习。在此基础上,老师们会进而讲解一些经典的技术和应用(例如,3D 计算摄影、神经渲染等)。
ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法
文章插图

密歇根大学的计算机视觉课程 EECS 442 将期中的很大一部分内容设置为深度学习相关的内容,但在此之前也会介绍经典的信号处理、特征提取技术。最后,教师会讲解 3D 视觉和经典计算机视觉的内容。此外,这门课的任课教师 Justin Johnson 还专门针对神经网络开设了一门课程,更为详细地介绍了循环神经网络、Transformer 等内容。
ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法
文章插图

尽管深度学习已经成为了计算机视觉领域的主流方法,但是仅仅依靠深度学习技术是否能解决所有的计算机视觉问题呢?在论文「What Do Single-view 3D Reconstruction Networks Learn?」中,在基于 ShapeNet 进行 3D 重建时,网络只是在识别对象的类别,然后细化形状,并没有很好地利用图像的底层信息。
ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法
文章插图

以视觉定位任务为例,一些基于深度学习的方法只是记住了图片出现的场景,在定位时进行猜测。如果查询并没有沿着路径,则回归的结果可能始终会被引导到出发点。该过程中并没有任何的 3D 推理,没有利用 3D 几何结构。
ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法
文章插图

另一方面,利用语义信息完成 3D 重建等任务也是一条很好的思路。论文「Joint 3D Scene Reconstruction and Class Segmentation」发表于 2013 年,那时是深度学习兴起的早期阶段。通过识别建筑和树的部位,该方法可以更好地进行 3D 重建,这说明有时引入语义信息是十分有效的。