自动驾驶|马斯克：视觉神经网络实现的自动驾驶，安全性超人类十倍以上访客|知识库|his|功能|机器人

9月17日上午，在海南省海口市召开的2021世界新能源汽车大会上，特斯拉首席执行官埃隆·马斯克通过视频发言时表示，未来的自动驾驶可以通过视觉神经网络实现，并且相比普通人驾驶有十倍以上的安全性。

文章插图

近日，特斯拉向其抢先体验车队推出FSD（Full-self Driving，完全自动驾驶）Beta V10软件。这是在特斯拉AI Day上发布最新应用在自动驾驶上的视觉神经网络之后，技术上做了重要改进的的纯视觉自动驾驶方案新版本。

文章插图

FSD Beta 10的软件版本号为2021.24.15。在该版本软件的支持下，特斯拉汽车能够在高速公路和城市街道上虚拟驾驶，但它仍然被视为L2级驾驶员辅助驾驶，因为它需要驾驶员仍然对车辆负责，将手放在方向盘上，并随时准备好控制。
在Youtube（译为“油管”，是目前全球最大的视频搜索和分享平台）上参与测试的用户发布的针对性测试和路测结果来看，目前还有很多情景下会出现问题，一个最明显的提升表现在驾驶中可视化用户界面，越来越多的道路标识和交通标识物的识别走向细分化，但依然有部分道路标志还不能准确识别。
在近期的特斯拉人工智能日上，特斯拉AI负责人Andrej Karpathy和自动驾驶硬件高级总监Ganesh Venkataramanan介绍了纯视觉自动驾驶系统与FSD软件的最新成果，此前5月份，马斯克曾发文表示，特斯拉最新版本的FSD将取消毫米波雷达，采用纯视觉感知方案。
在自动驾驶感知领域，有两个明显区别的路径——纯视觉派和激光雷达派，纯视觉派认为单纯依靠摄像头就可以完成自动驾驶所需要的周围环境感知，特斯拉、极氪、百度都使用的是纯视觉感知方案。激光雷达派则以激光雷达为主导，配合毫米波雷达、超声波传感器、摄像头多传感器融合完成周围环境感知，商汤AR小巴、小鹏P5、蔚来ET7使用的是激光雷达方案。
商汤智能驾驶研发总监李怡康在接受澎湃新闻采访时表示，“无论是纯视觉方案还是多传感器融合的方案最终都是有可能实现L4或L5级别的自动驾驶的，区别在于，引入激光雷达实际上是把问题变简单了，因为我们引入了很多额外的信息，而且这些信息跟视觉很互补，有些信息，比如深度，它可以估算地很准确。假如最后两条路径都能实现L5级自动驾驶，那我相信多传感器融合这条路线可能会更快一些。当然，感知只是决定自动驾驶是否实现的因素之一。”
特斯拉“纯视觉派”技术路线：视觉神经网络
特斯拉人工智能与自动驾驶视觉总监Andrej Karpathy认为，将激光雷达添加到自动驾驶堆栈会带来其自身的复杂性。在CVPR 2021自动驾驶研讨会上，Karpathy，“你必须用激光雷达预先绘制环境地图，然后你必须创建一张高清地图，你必须插入所有车道及其连接方式以及所有交通信号灯，收集、构建和维护这些高清激光雷达地图是不可扩展的，让这个基础设施保持最新状态将是极其困难的。”
Karpathy表示特斯拉在其自动驾驶堆栈中不使用激光雷达和高清地图，“发生的一切，都是第一次发生在车内，基于围绕汽车的八个摄像头的视频”。
特斯拉汽车上安装了8个摄像头，摄像头没有深度信息，他们的目标之一就是形成矢量空间视图。那么要怎么知道旁边一辆车究竟在哪里又有多长呢？
首先的一个难点是，不同视角的摄像头都只能看到周边环境的一部分，有不同的校准（calibration）、位置（location）、取景方向（view direction）等，比如以下这张图，谁能知道这个点对应于相机视图的哪个点？而我们只有知道这些信息，才能把周围物体准确放到向量空间视图（vector space view）中。