特斯拉AIDAY:激光雷达算啥?

如果你今天在社交网络上看到特斯拉AIDAY的直播链接并且碰巧在2小时6分左右进入了直播 , 那你很可能和我一样被接下来几分钟看到的内容惊到 。
这种惊讶先会先来自于下图这个极具科幻色彩的拟人机器人 , 它叫TeslaRobot , 是这次AIDAY的彩蛋 , 一部和特斯拉汽车共用视觉摄像头和神经网络计算芯片的机器人 。
特斯拉AIDAY:激光雷达算啥?
文章图片
特斯拉AIDAY:激光雷达算啥?
文章图片
可就在我的期待被瞬间拉高 , 幻想能看到这款机器人走上发布会舞台并说出那句「SoitiswithconsiderablepridethatIintroduceamanwho'sbeenlikeafathertome-ElonMusk」的时候 , 眼前又发生了这样的一幕:
特斯拉AIDAY:激光雷达算啥?
文章图片
看到这段COS尬舞 , 那些和我一样期待被拉高的观众应该在心里触发了疑惑三连:
「What?」
「就这?」
「RNM , 退钱!」
特斯拉AIDAY:激光雷达算啥?
文章图片
不过玩笑归玩笑 , 如果这次AIDAY的直播你是从头看到尾 , 那么你应该知道这段舞蹈是今天这3个小时的发布会里为数不多的轻松时刻 。
整场发布会的信息密度之大、涉及的技术领域之广、口音之重 , 我可能需要数周时间才能深入解读 , 在本篇我们先简要归纳一下这次发布会信息 。
自动驾驶实现的基础
能力之一:视觉
发布会开头的内容还算熟悉 , 特斯拉AI总监AndrejKarpathy上台介绍了一下特斯拉在做的事情:打造一套像人脑那样基于视觉的计算机神经网络系统 。
眼睛的替代品最好找 , 在特斯拉现售的车型上 , 这部分由8颗ADAS摄像头组成 , 这些摄像头可以在车身周围获取360°的无死角视野 。
特斯拉AIDAY:激光雷达算啥?
文章图片
在这之后 , 整套系统还需要有视网膜、多目视觉的视交叉、视叶神经束等一系列复杂的神经网络 , 这些环节则主要需要通过软件和算法来实现 。
特斯拉AIDAY:激光雷达算啥?
文章图片
在识别视觉特征的环节 , 大脑是通过视网膜读取信息 , 电脑则是通过计算比对像素的排列来识别 。 特斯拉在这个环节的软件特征提取层中做了不同区域的分工和相互配合 , 于是在特征的识别上可以做到结合环境情况推测那些不够明显的特征 , 比如下图中已经基本是马赛克分辨率的车辆 。
特斯拉AIDAY:激光雷达算啥?
文章图片
针对不同类型的特征 , 例如交通灯、交通线、交通参与者等等特斯拉建立很多个这样的特征识别指令 , 这些指令可以对同一素材进行多任务处理式的特征识别 。 特斯拉将这套识别网络称作「HydraNet」 。
然后是老版本软件里的环境建模追踪器「occupancytracker」 , 可以实现带时间轴的跨画面图像拼接 , 构成一个车身周围的环境建模 , 但问题有两个 , 一个是环境建模工作量巨大 , 通过C++软件代码去实现这个步骤非常复杂 , 另一个问题是建模精度不够 。
特斯拉AIDAY:激光雷达算啥?
文章图片
所以特斯拉希望改变策略 , 原先的做法是先对每个摄像头分画面预测然后再进行拼接和信息融合 , 现在的思路是直接先把8个摄像头的素材拼接好 , 拟合成一个实时的立体空间然后再来进行各种预测 。
这个过程看起来简单做起来难 , 在解决其中的很多关键难题以后 , 最后做出来的多摄像头视觉在感知精度上有显著提升 。