ch温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法( 六 )


Jitendra:
我曾经与同事们针对图神经网络开展过一些研究。我认为,这一领域的研究将会与如今的 Transformer 结合起来,这是因为 Transformer 可以更将灵活地通过位置编码等方式构建各种约束。我认为,人们对此类架构的研究正在进行中,我们还没有看到其最终的形态。CNN 和 Transformer 在近年来掀起了两波研究浪潮,今后还会有更多新的思路会引入其它的归纳偏置。在我看来,引入合适的归纳偏置对于解决少样本学习问题十分重要。
就我个人而言,我对具身人工智能的研究充满热情,我认为深度学习与其是相辅相成的。如前文所述,计算机视觉领域的问题可以被划分为多个层次,我们不应混淆它们。深度学习的强大之处在于,我们可以将一些可微的参数化的功能模块连接起来,使用 SGD 等方法进行梯度下降训练。神奇之处在于,这些过参数化的模型确实奏效,它们往往不会被困在局部最小值,可以在许多任务上取得成功。深度学习的成功与你是否使用监督学习、自监督学习、强化学习无关。
我认为,具身人工智能是人工智能的另一个层次,它将视觉和动作结合了起来。典型的应用场景包括机器人、AR 等,人们需要投入更多的资金和数据,来实现这个 1950 年代就产生的梦想。
Q6:以前,计算机视觉工程师们需要花费大量时间设计针对特定领域、特定物体的算子、时空度量。但现在,「特征工程」在有些研究者眼中或许已经稍显落伍了。现在流行的对比学习等方法用到了一些特征增强手段。或许,未来特征增强也会落伍,如何看待这种变化?
Svetlana:
我对此持开放态度。从长远的角度来看,研究社区需要保持繁忙。15 年前,大家都在设计手工的算子,现在大家都在做手工的神经网络设计、数据增强,也许在下一个 5 到 10 年,大家都会投身到手工设计元学习技术。我认为这都是可以接受的,重点在于要保持大的研究愿景。
实际上,和计算机视觉一样,神经网络也有着悠久的历史,Alexnet 等模型的诞生也有其历史渊源。神经网络只是我们可以利用的工具之一,我们要做的是维持合适的概念框架,让各种工具发挥作用。
Alexei:
除了 ICCV 之外,计算机视觉领域还有一个顶级会议叫做 CVPR(computer vision and pattern recognition)。我认为这个名字起的非常好,因为我们的研究一方面涉及计算机视觉、另一方面也涉及模式识别。在我看来,这两个部分分别对应是否需要使用数据。
我曾经去牛津大学做过博士后研究,VGG 组确实是做几何计算机视觉的好地方,但是计算机视觉和模式识别并不应该严格地被二分开来。我们需要意识到的是,数据是非常重要的,但数据也并不是全部,我们要将 CV 和 PR 结合起来。
Q7:相对而言,深度学习对 SLAM 研究社区的影响似乎还没有那么大。实际上,目标跟踪和各种滤波器也可以被用于 SLAM 领域。如何看待 SLAM 领域中各种工具的变化呢?
Andrew:
我认为这些工具仍然在发展中。但是显然,深度学习在 SLAM 领域中并没有完胜传统方法。我个人喜欢从整体应用的角度来思考 SLAM 问题,它是具身 AI 或实时感知、三维场景理解的一部分。在拥有足够的数据、网络规模足够大的情况下,人们也许会通过端到端的学习识别地图,建立模型。具体的实现细节(基于学习技术或人工设计)都只是一些计算的模式,相较于此,我更加关注整体过程的可行性。我更加关注如何将这些技术融入到整体的计算框架中,解决有趣的问题。
Richard:
正如 Lana 所说,神经网络的历史可以追溯到上世纪 50 年代。但是神经网络技术直到 2012 年才在大量真实任务上具备可观的性能。传统的计算机视觉课程中并没有深度学习的部分,那时我们会教学生如何设计线性、非线性滤波器。而深度学习方法可以通过多层网络学习出滤波器的权重。