自动驾驶BEV火了,再给它加点脑洞会靠谱吗?( 二 )


并且记录下时间 , 形成一个带时间序列的4D空间 , 就像赛车游戏的仿真场景那样 , 只不过更抽象 。
自动驾驶BEV火了,再给它加点脑洞会靠谱吗?
文章图片
当然 , 百度开始跟进BEV并不意味着是在剽窃特斯拉 。 早在2016年 , 百度就开始在BEV视角下实现了点云感知 。
而Transformer模型最早是2017年谷歌团队提出来的 , 之后就有各种魔改的Transformer 。
而在特斯拉2021年AIDAY之前 , 就有一些基于Transformer做BEV感知的学术论文 。
特斯拉当时的分享 , 让车企更有决心跟进罢了 。
这两年 , BEV感知也逐渐被应用于三维点云 , 也就是能把激光雷达也用上 。
在主流BEV感知基础上 , 百度做了些创新 , 也就是开头提到的车路一体的BEV感知方案——UniBEV 。
首先 , 百度先给传感器做了解耦 。
要知道 , 不同量产车型的传感器数量、参数以及安装位置都是不一样的 , 无论是传统的视觉感知方法 , 还是BEV感知 , 每款车都得重新适配一次 , 只是BEV感知适配更简单 。
特斯拉的车只有那么几款 , 所以这个问题影响不大 。
但百度的方案是希望卖给很多车企的各种车型的 , 所以他们专门自研了一个内外参解耦算法 , 也就是下图中虚线框的模块 。
自动驾驶BEV火了,再给它加点脑洞会靠谱吗?
文章图片
把不同相机解耦 , 意味着不管传感器的数量、位置怎么变化 , 都可以被投影到同一个BEV空间下面 。
其次 , 百度在全国各地都有智能交通项目 。
所以他们也想把路侧的摄像头也用上 , 把路侧摄像头图像提取的特征也投影到同一个BEV空间里 。
电线杆上的摄像头都比较高 , 这就意味着车辆能有“千里眼” , 真的拥有“上帝视角” , 可以提前看见被遮挡的行人、电动车……
自动驾驶BEV火了,再给它加点脑洞会靠谱吗?
文章图片
这样可以解决很多cornercase , 比如提前发现鬼探头(突然从看不到的角落冒出来的人)、更好地应对路口的无保护左转等等 。
前两年国内在开发各种5G车路协同应用时 , 就有人提出类似的功能 。
先算出路口的感知结果 , 再把这些结果通过5G网络或微波传输到车上 , 放进一个空间里 , 相当于后融合 。
自动驾驶BEV火了,再给它加点脑洞会靠谱吗?
文章图片
上图蓝色的物体表示路端感知结果 , 绿色则是车端感知结果 , 来自轻舟
据百度的描述 , UniBEV也是路端和车端在点云特征层面的BEV投影 。
但路端的数据如何稳定、实时地传输到车端?这块百度没有详谈 , 也还没有放出DEMO 。
再有 , 百度把无人出租车的海量数据用了起来 。
BEV感知的特征提取 , 主要依靠神经网络模型 , 这意味着要有足够多的数据 , 而且是有真值的数据 , 才能训练出一个强大的模型 。
百度现在有几百台无人出租车在北京、上海、重庆、武汉这些城市测试 , 积累了有超4000万公里的数据 , 正好都可以用上 。
因为这些数据既有视觉图像的数据 , 也有激光雷达的数据 , 还有3D的感知结果 , 可以作为云端真值系统来使用 。
在识别障碍物这件事上 , 百度相当于拥有了一个经验丰富的老师傅 。
自动驾驶BEV火了,再给它加点脑洞会靠谱吗?
文章图片
这个云端真值系统是没有人工介入做精标注的 , 如果从中挑选出一些特殊的场景数据 , 人工进行精标注的话 , 还能得到一个更高质量的模型 。