神经|温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法
文章插图
2021 年 10 月 13 日,来自麻省理工学院、加州大学伯克利分校、伊利诺伊大学香槟分校、华盛顿大学、帝国理工学院的六名顶级人工智能科学家、计算机视觉科学家在 ICCV 2021 大会期间进行了题为「A discussion about deep learning vs classical methods and their roles in computer vision」的学术讨论。
参与讨论的嘉宾包括 Aude Oliva(MIT-IBM Watson 人工智能实验室)、Svetlana Lazebnik(伊利诺伊大学香槟分校)、Jitendra Malik(加州大学伯克利分校)、Andrew Davison(帝国理工大学)、Richard Szeliski(华盛顿大学)、Alexei Efros(加州大学伯克利分校)。
文章插图
Richard Szeliski 首先抛砖引玉,发表了题为「Deep vs Classical Methods」的简短演讲。Richard 提到,在设置人工智能专业课程时,一个广为讨论的话题是:我们是否应该讲授深度学习之前的传统方法?还是直接通过深度学习解决所有的问题?
为此,Richard 在过去的四年中持续更新他的计算机视觉教科书(https://szeliski.org/Book)。相较于早先的版本,该书加入了信号处理、优化技术等章节,这些知识经常被用于计算机视觉的各个领域。在「Deep Learning」和「Recognition」两个章节中,Richard 分别介绍了深度学习的基本原理(传统的网络架构),以及一些更加复杂的技术(例如,分割、目标检测、视觉和语言)。
文章插图
实际上,在华盛顿大学「计算机视觉」的课程安排中,老师们会首先介绍经典的信号处理算法,接着介绍神经网络和深度学习。在此基础上,老师们会进而讲解一些经典的技术和应用(例如,3D 计算摄影、神经渲染等)。
文章插图
密歇根大学的计算机视觉课程 EECS 442 将期中的很大一部分内容设置为深度学习相关的内容,但在此之前也会介绍经典的信号处理、特征提取技术。最后,教师会讲解 3D 视觉和经典计算机视觉的内容。此外,这门课的任课教师 Justin Johnson 还专门针对神经网络开设了一门课程,更为详细地介绍了循环神经网络、Transformer 等内容。
文章插图
尽管深度学习已经成为了计算机视觉领域的主流方法,但是仅仅依靠深度学习技术是否能解决所有的计算机视觉问题呢?在论文「What Do Single-view 3D Reconstruction Networks Learn?」中,在基于 ShapeNet 进行 3D 重建时,网络只是在识别对象的类别,然后细化形状,并没有很好地利用图像的底层信息。
文章插图
以视觉定位任务为例,一些基于深度学习的方法只是记住了图片出现的场景,在定位时进行猜测。如果查询并没有沿着路径,则回归的结果可能始终会被引导到出发点。该过程中并没有任何的 3D 推理,没有利用 3D 几何结构。
文章插图
另一方面,利用语义信息完成 3D 重建等任务也是一条很好的思路。论文「Joint 3D Scene Reconstruction and Class Segmentation」发表于 2013 年,那时是深度学习兴起的早期阶段。通过识别建筑和树的部位,该方法可以更好地进行 3D 重建,这说明有时引入语义信息是十分有效的。
- 拼多多|砍价永远差一刀?拼多多回应:小数点后有6位
- 电极|神经外科手术有了导航定位系统
- 相较神经网络,大名鼎鼎的傅里叶变换,为何没有一统函数逼近器?答案在这
- tst庭秘密|技术集中于神经网络的“芯声智能”获数千万元人民币A轮融资
- 芯片|英特尔发新神经形态芯片,31mm2容纳100万人工神经元
- 网信办|运用神经地图快速成交:销售脑科学,让你的营销更有效力
- 临床笔记 | 神经系统解剖-神经传导通路
- 邓亚萍陈铭等6位大咖现身百度百科15周年《微光》演讲
- 一文搞懂人体神经系统:见到喜欢的人就脸红心跳,到底是咋回事?
- 36氪|36氪首发 | 专注脑科学与中枢神经疾病数字疗法,「IBT无疆科技」获数千万元Pre-A+轮融资