ch温故而知新，6位顶级CV科学家聚首：计算机视觉中的深度学习方法vs传统方法( 六 )

Jitendra：
我曾经与同事们针对图神经网络开展过一些研究。我认为，这一领域的研究将会与如今的 Transformer 结合起来，这是因为 Transformer 可以更将灵活地通过位置编码等方式构建各种约束。我认为，人们对此类架构的研究正在进行中，我们还没有看到其最终的形态。CNN 和 Transformer 在近年来掀起了两波研究浪潮，今后还会有更多新的思路会引入其它的归纳偏置。在我看来，引入合适的归纳偏置对于解决少样本学习问题十分重要。
就我个人而言，我对具身人工智能的研究充满热情，我认为深度学习与其是相辅相成的。如前文所述，计算机视觉领域的问题可以被划分为多个层次，我们不应混淆它们。深度学习的强大之处在于，我们可以将一些可微的参数化的功能模块连接起来，使用 SGD 等方法进行梯度下降训练。神奇之处在于，这些过参数化的模型确实奏效，它们往往不会被困在局部最小值，可以在许多任务上取得成功。深度学习的成功与你是否使用监督学习、自监督学习、强化学习无关。
我认为，具身人工智能是人工智能的另一个层次，它将视觉和动作结合了起来。典型的应用场景包括机器人、AR 等，人们需要投入更多的资金和数据，来实现这个 1950 年代就产生的梦想。
Q6：以前，计算机视觉工程师们需要花费大量时间设计针对特定领域、特定物体的算子、时空度量。但现在，「特征工程」在有些研究者眼中或许已经稍显落伍了。现在流行的对比学习等方法用到了一些特征增强手段。或许，未来特征增强也会落伍，如何看待这种变化？
Svetlana：
我对此持开放态度。从长远的角度来看，研究社区需要保持繁忙。15 年前，大家都在设计手工的算子，现在大家都在做手工的神经网络设计、数据增强，也许在下一个 5 到 10 年，大家都会投身到手工设计元学习技术。我认为这都是可以接受的，重点在于要保持大的研究愿景。
实际上，和计算机视觉一样，神经网络也有着悠久的历史，Alexnet 等模型的诞生也有其历史渊源。神经网络只是我们可以利用的工具之一，我们要做的是维持合适的概念框架，让各种工具发挥作用。
Alexei：
除了 ICCV 之外，计算机视觉领域还有一个顶级会议叫做 CVPR（computer vision and pattern recognition）。我认为这个名字起的非常好，因为我们的研究一方面涉及计算机视觉、另一方面也涉及模式识别。在我看来，这两个部分分别对应是否需要使用数据。
我曾经去牛津大学做过博士后研究，VGG 组确实是做几何计算机视觉的好地方，但是计算机视觉和模式识别并不应该严格地被二分开来。我们需要意识到的是，数据是非常重要的，但数据也并不是全部，我们要将 CV 和 PR 结合起来。
Q7：相对而言，深度学习对 SLAM 研究社区的影响似乎还没有那么大。实际上，目标跟踪和各种滤波器也可以被用于 SLAM 领域。如何看待 SLAM 领域中各种工具的变化呢？
Andrew：
我认为这些工具仍然在发展中。但是显然，深度学习在 SLAM 领域中并没有完胜传统方法。我个人喜欢从整体应用的角度来思考 SLAM 问题，它是具身 AI 或实时感知、三维场景理解的一部分。在拥有足够的数据、网络规模足够大的情况下，人们也许会通过端到端的学习识别地图，建立模型。具体的实现细节（基于学习技术或人工设计）都只是一些计算的模式，相较于此，我更加关注整体过程的可行性。我更加关注如何将这些技术融入到整体的计算框架中，解决有趣的问题。
Richard：
正如 Lana 所说，神经网络的历史可以追溯到上世纪 50 年代。但是神经网络技术直到 2012 年才在大量真实任务上具备可观的性能。传统的计算机视觉课程中并没有深度学习的部分，那时我们会教学生如何设计线性、非线性滤波器。而深度学习方法可以通过多层网络学习出滤波器的权重。