显示器|毫末智行AI DAY:智算中心,五大模型,以及新的天花板( 二 )


现在 , 毫末在车端实时的感知架构已经发生了很大的变化 。 就常规的任务来说 , 一般只有障碍物检测和车道线检测 , 而毫末还新增了通用结构检测 , 将通用障碍物识别、局部路网 , 以及对障碍物意图的行为预测都加入到了感知模块中 。
在今年年初 , 毫末将着重提升复杂障碍物的交互和路口的通过性;而下半年则会处理一些特殊工况 , 另外还会发布免教学长距离泊车 。
在2024年拓展城市NOH的落地范围后 , 毫末计划在2025推出完全自动驾驶系统HSD 。

这些变化与规划 , 在很大程度上 , 都基于毫末不断升级的五大模型——视觉自监督大模型、多模态互监督大模型、3D重建大模型、动态环境大模型 , 以及人驾自监督认知大模型 。
在自动驾驶对高价值数据的需求下 , 如今的数据文件形态早已从离散帧变为了类似短视频的Clip形态 , 每个Clip都包括好几百帧的视频信号 , 再加上毫米波、激光雷达等传递的信号 , 一个Clip的数据量是单帧的上千倍 。
「假设我们有一段由100帧连续图像组成的clip , 我们希望能够最大量的进行自动化标注 , 如果我们抽样标注了其中的10% , 那是否可以用算法把剩下的90%都自动标注出来?」

顾维灏表示 , 视觉自监督大模型的原理是 , 通过前一帧 , 推算下一帧是什么 , 自动化地把90%的非关键帧都补齐 。 「通过这种方式 , 我们降低了98%的clip标注成本 。 」
而毫末技术副总裁艾锐表示 , 这种形式也很适合做时空上的联合推理 , 例如当有骑行者在通过遮挡物时 , 该模型需要推理出来他被遮挡后假设会存在什么 , 并且还要和他钻出来的部分能对上 。

还有一项与成本相关的技术 , 就是「3D重建大模型」 。 它使用了近两年非常火的NeRF技术 , 也就是用少量的图片 , 通过网络学习即可得到较好的3D模型重建结果 。
「相当于做了感知升维 , 从平面的视频升维到具备深度信息的三维空间 , 我们可以在三维空间通过改变视角、改变光照、改变纹理材质的方法来生成各种高真实感数据 。 例如通过视角变化可以模拟变道、绕行、调头等各种主车行为 , 甚至模拟一些即将碰撞的高危险性场景数据 。 」据顾维灏介绍 , 增加 NeRF 生成的数据后 , 可将感知的错误率降低 30%以上 , 且数据生成可实现全程自动化 , 无需任何人工参与 。

至于多模态互监督大模型 , 则是指用视觉、激光雷达、毫米波雷达等等多个模态的互相监督 , 进行预训练 。 「这种通用结构的检测可以很好地补充已有的语义障碍物检测 , 对于提升我们在城市复杂工况下的通过性有非常大的帮助 。 」顾维灏表示 。
据介绍 , 该模型在应用的时候 , 输入的是视觉 , 输出时却可以比较精确地还原道路上形态各异的结构 , 并且告诉系统那个地方是可通过还是不可通过 , 这非常适合城市的复杂路况 。
「自动驾驶的『拟人』大作战」
之所以要着重介绍动态环境大模型 , 是因为这是毫末继续降低地图依赖的重要手段 。 该模型的目的是实现像人一样实时推断道路上的拓扑结构 , 预测前方道路就像是人类司机在看导航的同时 , 作出自己的纠错的判断 。
「这种方法天花板更高 , 但是难度更大 。 」艾锐表示 。
「虽然道路拓扑的变化率已经是各种地图元素中最低的 , 但还是不够低 。 例如北京 , 半年之内的道路拓扑变化达到了平均每100公里5.06处 。 」

顾维灏表示 , 为了应对地图信息的滞后 , 动态环境大模型会将地图信息作为先验 , 输入到模型中 , 让它去纠错 。 「我们要进一步加强感知的能力 , 能像人类一样在标准地图的导航提示下 , 就可以实现对道路拓扑结构的实时推断 。 」