ch温故而知新，6位顶级CV科学家聚首：计算机视觉中的深度学习方法vs传统方法( 二 )

文章插图

在单目深度估计任务中，我们往往在 KITTI 数据集或一些驾驶场景中进行训练和测试。大多数的神经网络模型只是识别物体在图像中的位置，然后为其赋予一个相应的深度。如果我们将一个网络没见过的物体（例如，冰箱或狗）放在路的中间，神经网络可能会完全忽略掉该物体。在驾驶场景下使用这种神经网络模型的安全性值得商榷。

文章插图

当我们可以用一个很大的数据集训练时，神经网络往往可以表现出很好的性能。然而，如果我们在某个数据集上训练网络，该网络在不被重新训练的情况下会在另外的数据集上表现出怎样的性能？

文章插图

经典方法（例如，光流法）和用于提取特征的神经网络技术可以很好地结合起来。因此，许多深度学习技术使传统方法获得了新生。论文「PWC-Net」的作者使用前馈神经网络代替了经典的能量最小化方法，该模型运行速度更快，也更可靠。此外，在论文「Fast Image Processing with Fully-Convolutional Networks」中，作者使用全卷积网络代替一系列经典的计算摄影技术，加速了其运算过程。

文章插图

在论文「Animating Picture with Eulerian Motion Fields」中，Richard 等人通过提取神经网络特征，接着将这些特征解码为彩色像素来合成图像。

文章插图

在 Richard 看来，从事 CV 研究的学生和工程师不仅仅要会使用深度学习方法，也要学习其它类型的 CV 技术。如果我们可以从数学上对几何、光学、物理等性质建模，就要大胆地使用这些方法，它们的性能和泛化能力更强。尤其是当我们拥有的数据十分有限时，使用基于学习的方法就要特别小心。有时，神经网络及其特征提取过程相较于传统方法更快。

文章插图

Richard Szeliski 是华盛顿大学的兼职教授、美国国家工程院院士、ACM Fellow和 IEEE Fellow。Szeliski 在计算机视觉、基于图像的建模、基于图像的渲染和计算摄影的贝叶斯方法领域进行了开创性的研究，这些领域处于计算机视觉和计算机图形的交叉点。
Szeliski 1988 年获得卡内基梅隆大学计算机科学博士学位。他于 2015 年加入 Facebook，担任计算摄影小组的创始董事，并于 2020 年退休。在加入 Facebook 之前，他在微软研究院以及其他几个工业研究实验室工作了二十年。
他在计算机视觉、计算机图形学、神经网络和数值分析方面发表了 180 多篇研究论文，并撰写了《计算机视觉：算法与应用》和《低级视觉不确定性的贝叶斯建模》。他是 CVPR'2013 和 ICCV'2003 的程序主席，曾担任 IEEE Transactions on Pattern Analysis and Machine Intelligence 和 International Journal of Computer Vision 编委的副主编，以及Foundations and Trends in Computer Graphics and Vision的创始编辑。
2在马尔CV三层次之前，先回答廷伯根四问

文章插图

计算机视觉是「数学」、「科学」、「工程」的结合。许多论文将这些元素融合在了一起。
David Marr 最重要的观点是将视觉作为一种科学来思考。上世纪 70 年代末期，他指出我们应该从三个层次理解计算机视觉任务：（1）计算理论：底层的物理约束（2）算法（3）硬件上的算法实现。实际上，早在上世纪 50、60 年代，1973 年的诺贝尔生理和医学奖得主、生物学家廷伯根就做了一系列工作，有助于我们在如今思考基于学习的计算机视觉和传统方法之间的关系。