自动驾驶|毫末智算中心:补齐自动驾驶3.0时代最后一块拼图( 五 )



毫末的解决思路是:让系统像人一样实时推断道路上的拓扑结构 。 人只需要地图导航的引导 , 同时用自己的眼睛做实时的推断 , 并进行驾驶 。
动态环境大模型也是如此 , 它让智能驾驶系统根据地图的引导 , 推断出道路的连接点或分岔点 , 自己实时生成一个虚拟的车道线 , 然后自动驾驶过去 。
毫末官方介绍 , 在北京和保定的很多路口都做了测试 , 对于大部分路口 , 这个方法可以达到95%的准确率 。 对一些异形、小路口的通过能力 , 还在持续改进中 。
5、人驾自监督认知大模型
这个模型是为了进一步优化驾驶决策系统 , 让自动驾驶能力更加拟人化 。

数据驱动是自动驾驶发展的主流路线 , 但毫末经过实践发现 , 这条路线也存在问题 。 例如 , 面对不同司机在同一个场景下不同驾驶方式数据 , 模型会倾向于拟合出大家的平均水平 。
以路口转弯为例 , 有人在这个路口开得比较好 , 有人开得一般 , 有人开得比较差 。 这些人类驾驶数据一股脑输给模型之后 , 模型学出来的是普通司机的转弯水平 。
但是 , 工程师希望模型学到高水平的驾驶 , 不希望它学习不太好的驾驶方式 。 同时 , 又不想进行大量的人工标注 , 因为那会增加时间和精力成本 。
为了解决这个问题 , 毫末借鉴了最近比较火的ChatGPT 。 ChatGPT模型使用了“利用人类反馈强化学习RLHF”的训练方式 , 利用人类知识 , 让模型自己判断答案的质量 , 逐步提升给出高质量答案的能力 。
顾维灏解释:在自动驾驶中 , 人类司机的每次接管 , 都是对自动驾驶策略的一次人类反馈 。 之前 , 毫末一直把接管数据当简单的负样本用 , 现在毫末构建了一个“旧策略、接管策略、人工label策略”的pairwise排序模型 。 并基于这个模型 , 构建了自动驾驶决策的奖励模型reward model , 这个奖励模型reward model解决了上述问题 , 即如何选出最优的决策 。
他说 , 通过这种方式 , 在调头、环岛等公认的困难场景 , 自动驾驶的通过率提升了30%以上 。
总结
顾维灏说 , 在五大模型助力下 , 毫末的MANA数据智能体系有了最新的车端感知架构 。 这是一个更加端到端的架构 , 过去分散的多个下游任务都集成到一起 , 除了车道线、车辆、红绿灯等任务 , 还包括通用障碍物识别、局部路网、行为预测等任务 , 实现了一个跨代升级 。
自成立以来 , 毫末一直在为自动驾驶3.0做准备 , 在感知、认知、模式建设上 , 都按照数据驱动方式建设 。 例如 , 毫末在中国最早提出重感知技术路线 , 最早进行技术准备 , 并做了大量应用实践 。

为了重感知技术路线的实施 , 毫末也完成了数据体系的升级和最新的五大模型部署 , MANA OASIS的建成 , 标志着毫末补齐了奔跑进入自动驾驶3.0时代的另一块拼图 , 可以为其自动驾驶技术的持续迭代提供充足动力 。
在量产应用层面 , 有了MANA OASIS的加持 , 毫末的乘用车辅助驾驶产品HPilot将继续发展 , 更快迈进全无人驾驶时代 。

毫末计划 , 城市导航辅助驾驶在2023年将会交付用户 。 2024年第一季度 , 毫末将完成HPilot落地中国100个城市的计划 , 实现点点互达 。 到2025年 , 更大规模全场景的NOH将更快落地 。
【自动驾驶|毫末智算中心:补齐自动驾驶3.0时代最后一块拼图】可以说 , MANA OASIS的加持 , 将支持毫末快步跨入自动驾驶3.0时代 。