ch温故而知新，6位顶级CV科学家聚首：计算机视觉中的深度学习方法vs传统方法( 四 )

Svetlana：我的经历也许与许多研究者相似。我记得「Alexnet」是深度学习时代到来的重要里程碑，它在 ImageNet 竞赛中一举夺冠，并在 ECCV 2012 上发表了研究论文。Alexei 当时还和 Yann LeCun 等人就此事进行了争论，Alexei 对神经网络持怀疑态度，他认为用这些网络进行分类任务并不具有说服力，使用神经网络完成检测任务才可以说服他。就我个人而言，一开始我也怀疑自己是否能够参与这类研究，因为这些方法就好像魔法，其中有太多的奥秘。我不知道这些结果是否可以复现，是否会被研究社区所接受。
令人高兴的是，这些年过去了，我的怀疑被证明是错误的。人们发明了 Caffe 等好用的程序包，2013、2014 年前后，学生们开始研究此类方法，那时你甚至只需为自己的特定数据集训练一个 Alexnet 或者使用现成的特征就可以发表研究论文。而如今，研究走进了深水区，竞争越来越激烈，我又变得悲观了起来。

文章插图

Svetlana Lazebnik 在2006 年获得伊利诺伊大学计算机科学博士学位。2007 年至 2011 年在北卡罗来纳大学教堂山分校担任助理教授后，她返回伊利诺伊大学任教，目前担任计算机科学系正教授。她获得的奖项包括 NSF CAREER 奖（2008 年）、微软研究院研究奖（2009 年）、斯隆研究奖（2013 年），并当选 IEEE Fellow（2021 年）。她于2006年发表在 CVPR 的关于空间金字塔匹配的论文获得了 2016 年 Longuet-Higgins 奖，该论文对计算机视觉有重大影响。她曾担任 ECCV 2012 和 ICCV 2019 的程序主席，目前担任国际计算机视觉杂志的主编。她的主要研究主题包括场景理解、大规模照片集的建模、图像和文本的联合表示以及视觉识别问题的深度学习技术。
Q2：Lana 提到了当年 Alexei 和 Yann 争论的轶事，请问 Alexei 现在回过头怎么看待当时的争论？
Alexei：
2011 年前后，我曾去纽约大学呆了几个月，在 Yann LeCun 那里试图理解神经网络。那时，我认为人们还没有准备好步入深度学习时代，神经网络在 ImageNet 上的效果并不能说服我，我认为分类任务比检测任务简单得多。然而，大概一年之后，RCNN 横空出世，他们证明了深度学习在检测任务上也是可行的。
我是一个非常保守的研究者，不会轻易投身于所谓的研究潮流（例如，图模型、VAE 等）中。尽管我和 Jitendra 等人做了很多与深度学习的诞生相关的关键工作，但是我那时没有立刻开展深度学习研究。我一直在等待深度学习成为一种工具，我所擅长的是解决视觉问题，而非研究网络架构。
后来，我和同事们听说神经网络受益于 ImageNet 预训练，在 Pascal 数据集上有很好的效果。然而，Pascal 数据集中的数据分布与 ImageNet 是截然不同的。因此，我猜想预训练所带来的性能提升可能并不是由于 ImageNet 的标签，而是由于像素中的信息。
那时，我对 Jitendra 说 1 年之内会出现一些无需 ImageNet 的标签来预训练 RCNN 的工作，这实际上也是自监督学习的动机之一。在 ICCV 2015 上，大量有关自监督学习的文章涌现了出来。如今，自监督学习成为了重要的预训练方式。

文章插图

Alyosha Efros（Alexei Efros）是加州大学伯克利分校的教授。他于 2003 年从加州大学伯克利分校获得博士学位，并在牛津、CMU 和 INRIA/Paris 度过了一段时间，然后于 2013 年回到伯克利。Alyosha 是数据、像素、最近邻和简单有效的事物的忠实粉丝，而对复杂（尤其是概率）模型、语义标签和语言持怀疑态度。