自动驾驶BEV火了，再给它加点脑洞会靠谱吗？( 二 ) 作者|洪泽鑫编辑|Bruce百度今年

并且记录下时间，形成一个带时间序列的4D空间，就像赛车游戏的仿真场景那样，只不过更抽象。

文章图片
当然，百度开始跟进BEV并不意味着是在剽窃特斯拉。早在2016年，百度就开始在BEV视角下实现了点云感知。
而Transformer模型最早是2017年谷歌团队提出来的，之后就有各种魔改的Transformer 。
而在特斯拉2021年AIDAY之前，就有一些基于Transformer做BEV感知的学术论文。
特斯拉当时的分享，让车企更有决心跟进罢了。
这两年， BEV感知也逐渐被应用于三维点云，也就是能把激光雷达也用上。
在主流BEV感知基础上，百度做了些创新，也就是开头提到的车路一体的BEV感知方案——UniBEV 。
首先，百度先给传感器做了解耦。
要知道，不同量产车型的传感器数量、参数以及安装位置都是不一样的，无论是传统的视觉感知方法，还是BEV感知，每款车都得重新适配一次，只是BEV感知适配更简单。
特斯拉的车只有那么几款，所以这个问题影响不大。
但百度的方案是希望卖给很多车企的各种车型的，所以他们专门自研了一个内外参解耦算法，也就是下图中虚线框的模块。

文章图片
把不同相机解耦，意味着不管传感器的数量、位置怎么变化，都可以被投影到同一个BEV空间下面。
其次，百度在全国各地都有智能交通项目。
所以他们也想把路侧的摄像头也用上，把路侧摄像头图像提取的特征也投影到同一个BEV空间里。
电线杆上的摄像头都比较高，这就意味着车辆能有“千里眼” ，真的拥有“上帝视角” ，可以提前看见被遮挡的行人、电动车……

文章图片
这样可以解决很多cornercase ，比如提前发现鬼探头（突然从看不到的角落冒出来的人）、更好地应对路口的无保护左转等等。
前两年国内在开发各种5G车路协同应用时，就有人提出类似的功能。
先算出路口的感知结果，再把这些结果通过5G网络或微波传输到车上，放进一个空间里，相当于后融合。

文章图片
上图蓝色的物体表示路端感知结果，绿色则是车端感知结果，来自轻舟
据百度的描述， UniBEV也是路端和车端在点云特征层面的BEV投影。
但路端的数据如何稳定、实时地传输到车端？这块百度没有详谈，也还没有放出DEMO 。
再有，百度把无人出租车的海量数据用了起来。
BEV感知的特征提取，主要依靠神经网络模型，这意味着要有足够多的数据，而且是有真值的数据，才能训练出一个强大的模型。
百度现在有几百台无人出租车在北京、上海、重庆、武汉这些城市测试，积累了有超4000万公里的数据，正好都可以用上。
因为这些数据既有视觉图像的数据，也有激光雷达的数据，还有3D的感知结果，可以作为云端真值系统来使用。
在识别障碍物这件事上，百度相当于拥有了一个经验丰富的老师傅。

文章图片
这个云端真值系统是没有人工介入做精标注的，如果从中挑选出一些特殊的场景数据，人工进行精标注的话，还能得到一个更高质量的模型。