ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法( 四 )
Svetlana:我的经历也许与许多研究者相似。我记得「Alexnet」是深度学习时代到来的重要里程碑,它在 ImageNet 竞赛中一举夺冠,并在 ECCV 2012 上发表了研究论文。Alexei 当时还和 Yann LeCun 等人就此事进行了争论,Alexei 对神经网络持怀疑态度,他认为用这些网络进行分类任务并不具有说服力,使用神经网络完成检测任务才可以说服他。就我个人而言,一开始我也怀疑自己是否能够参与这类研究,因为这些方法就好像魔法,其中有太多的奥秘。我不知道这些结果是否可以复现,是否会被研究社区所接受。
令人高兴的是,这些年过去了,我的怀疑被证明是错误的。人们发明了 Caffe 等好用的程序包,2013、2014 年前后,学生们开始研究此类方法,那时你甚至只需为自己的特定数据集训练一个 Alexnet 或者使用现成的特征就可以发表研究论文。而如今,研究走进了深水区,竞争越来越激烈,我又变得悲观了起来。
文章插图
Svetlana Lazebnik 在2006 年获得伊利诺伊大学计算机科学博士学位。2007 年至 2011 年在北卡罗来纳大学教堂山分校担任助理教授后,她返回伊利诺伊大学任教,目前担任计算机科学系正教授。她获得的奖项包括 NSF CAREER 奖(2008 年)、微软研究院研究奖(2009 年)、斯隆研究奖(2013 年),并当选 IEEE Fellow(2021 年)。她于2006年发表在 CVPR 的关于空间金字塔匹配的论文获得了 2016 年 Longuet-Higgins 奖,该论文对计算机视觉有重大影响。她曾担任 ECCV 2012 和 ICCV 2019 的程序主席,目前担任国际计算机视觉杂志的主编。她的主要研究主题包括场景理解、大规模照片集的建模、图像和文本的联合表示以及视觉识别问题的深度学习技术。
Q2:Lana 提到了当年 Alexei 和 Yann 争论的轶事,请问 Alexei 现在回过头怎么看待当时的争论?
Alexei:
2011 年前后,我曾去纽约大学呆了几个月,在 Yann LeCun 那里试图理解神经网络。那时,我认为人们还没有准备好步入深度学习时代,神经网络在 ImageNet 上的效果并不能说服我,我认为分类任务比检测任务简单得多。然而,大概一年之后,RCNN 横空出世,他们证明了深度学习在检测任务上也是可行的。
我是一个非常保守的研究者,不会轻易投身于所谓的研究潮流(例如,图模型、VAE 等)中。尽管我和 Jitendra 等人做了很多与深度学习的诞生相关的关键工作,但是我那时没有立刻开展深度学习研究。我一直在等待深度学习成为一种工具,我所擅长的是解决视觉问题,而非研究网络架构。
后来,我和同事们听说神经网络受益于 ImageNet 预训练,在 Pascal 数据集上有很好的效果。然而,Pascal 数据集中的数据分布与 ImageNet 是截然不同的。因此,我猜想预训练所带来的性能提升可能并不是由于 ImageNet 的标签,而是由于像素中的信息。
那时,我对 Jitendra 说 1 年之内会出现一些无需 ImageNet 的标签来预训练 RCNN 的工作,这实际上也是自监督学习的动机之一。在 ICCV 2015 上,大量有关自监督学习的文章涌现了出来。如今,自监督学习成为了重要的预训练方式。
文章插图
Alyosha Efros(Alexei Efros)是加州大学伯克利分校的教授。他于 2003 年从加州大学伯克利分校获得博士学位,并在牛津、CMU 和 INRIA/Paris 度过了一段时间,然后于 2013 年回到伯克利。Alyosha 是数据、像素、最近邻和简单有效的事物的忠实粉丝,而对复杂(尤其是概率)模型、语义标签和语言持怀疑态度。
- 一加科技|16+1TB,一加10T秀肌肉,顶级4nm+5100mAh+80W
- 拼多多|砍价永远差一刀?拼多多回应:小数点后有6位
- 16+1TB,一加10T秀肌肉,顶级4nm+5100mAh+
- 一晚上偷来50辆世界顶级豪车,没有比这更牛了!
- 蓝牙耳机|听歌用什么蓝牙耳机合适?顶级音质的蓝牙耳机
- 光刻机|国内企业无法购买顶级光刻机,为何不找海外同胞做代理人专供华为?
- 伊隆·马斯克|马斯克、贝佐斯、劳伦·桑切斯……顶级大佬们的择偶审美共性
- 各国顶级科研人才规模对比:美国1100人,日本400人,中国是多少
- vivo X70 Pro+有多好?全能无短板,还有顶级影像实力
- 全球最顶级的10个无纺布制造公司