自动驾驶|毫末智算中心:补齐自动驾驶3.0时代最后一块拼图( 四 )


这个大模型的作用是以极低的成本 , 把以前积累的离散帧文件自动标注成连续帧文件 。

顾维灏介绍 , 之前 , 自动驾驶标注数据的常用方法是单帧标注 , 也就是标注某一个瞬间 , 每秒只标注1帧 , 但真实的视频至少每秒10帧以上 , 中间有很多空隙没有标注 。
现在 , 为了适应自动驾驶的发展 , 需要把离散单帧转变成连续帧 , 也就是4D clip短视频形态 , 这带来了时间、成本等方面的挑战 。 如果人工把这90%的内容都补齐 , 成本会非常贵 。
为了解决这个问题 , 毫末做了一套自动标注的方法 , 这就是视频自监督大模型 。
官方介绍 , 这个模型基本上实现了百分百自动化标注 。 只需要2%的人工抽检即可 , 显著节省成本 。 准确率也非常高 , 对一些Hard case , 例如被车辆遮挡慢慢出现、又进入遮挡状态的骑行者 , 雨天情况下被桥梁护栏拦在外面的面包车 , 远距离的一些小目标等等 , 也可以自动标注 。
“视觉自监督大模型是走向业界最前沿的Clip形态 , 我们基本上用全自动化的方法 , 低成本的解决了这个问题 。 有了这个模型 , 毫末可以把之前积累的几千万的离散帧都转化为Clip , 但只消耗了机械算力 。 “艾锐说 。
2、3D重建大模型
这个模型的作用是:通过数据生成 , 补充稀缺场景 , 降低感知错误率 。
它引入了电商领域常见的NeRF技术 。 该技术用神经网络来实现三维重建 , 用少量的图片通过网络学习获得非常好的重建结果 。 可以生成任意视角下的高真实感图片 , 以及物体的3D素材 。

3D重建大模型作用很大 。 首先 , 它可以根据车端提供的部分数据 , 重建场景 , 并把场景细节完全数字化 , 以及做相应视角的调整 。 “
其次 , 它可以模拟一些危险的动作 , 比如用虚拟车撞前面的车辆 , 获得极限路况下的数据 。 之前 , 这些数据只能通过用户驾驶慢慢搜集 , 因为发生概率低 , 数据并不全 。 有了这个技术之后 , 就可以自动创造危险的Corner Case , 自动补充稀缺场景 。
再次 , 它可以模拟光线的调整 , 以及雪天的效果 , 夜晚的效果等等 , 把这些场景制造出来 , 供自动驾驶训练使用 。
这个模型可以为很多算法研发做场景数据补充 , 让感知困难场景的错误率下降30%以上 。
3、多模态互监督大模型
多模态互监督大模型是为了解决BEV算法的缺陷问题 , 提升对异型障碍物的识别能力 。
毫末已经在自动驾驶系统里面采用了业界前沿的BEV算法 。 经过量产应用 , 毫末发现: , 这种算法对已知物体的感知效果比较好 , 但对城市工况奇奇怪怪的异形障碍物 , 感知能力还有一定的缺陷 。

毫末的办法是多模态互监督大模型 , 就是用视觉、激光、毫米波等互相监督 , 来感知识别通用障碍物或者通用结构 。
它的逻辑是:不去关心这个东西语义上是什么含义 , 只知道它突出得足够高 , 可能会对车有影响 。
“虽然没有语义含义 , 不知道这是什么东西 , 但是从通过性角度来说 , 可以非常准确地告诉系统 , 这个地方是可通过还是不可通过 。 这样的话 , 针对城市环境的很多挑战 , 就可以让系统应对得非常好 。 ”艾锐说 。
概括而言 , 多模态互监督大模型不仅提升了对异型障碍物的感知能力 , 也大幅降低了白名单模式带来的成本 。
4、动态环境大模型
动态环境大模型是毫末在重感知路线下 , 尽量降低地图依赖的尝试 。
国内道路建设发展太快 , 比如在北京 , 每半年时间、每100公里道路拓扑结构的变化 , 平均可以达到5.06次 。 因此 , 为了更好地解决复杂路口通行的问题 , 毫末对地图的依赖要进一步减弱 。