显示器|毫末智行AI DAY:智算中心,五大模型,以及新的天花板( 三 )


顾维灏举例称 , 在保定有一个非常复杂的六岔口 , 毫末希望能在模型的辅助下 , 根据视觉推断出道路的连接点和分岔点 , 自动能生成一个虚拟的合理车道线 。
为求达到在认知决策上的「拟人」的效果 , 毫末还采用了「人驾自监督认知大模型」 。 同样是数据驱动 , 这一模型利用人类的反馈 , 让模型学习辨别优质解法和劣质解法 。
「这种思路其实也类似ChatGPT的训练 。 从最早的GPT1到现在的ChatGPT , 除了在模型参数量上有近千倍的提升之外 , 最重要的是ChatGPT模型使用了『利用人类反馈强化学习RLHF』的训练方式 , 更好的利用了人类知识 , 让模型自己能够判断其答案的质量 。 」顾维灏说道 。

由此 , 毫末也借鉴了RLHF以人类反馈做强化学习的方式 , 分辨好的和不好的驾驶行为 。 「我们用人驾正常行为 , 接管数据和人驾异常行为数据训练了一个reward model , 做认知大模型的强化学习训练 。 」艾锐补充解释道 。
从前 , 模型会倾向将一个场景下的不同驾驶行为 , 拟合为大家的平均水平 , 也就是说学习的是「普通司机」的水平 , 而如今 , 毫末更希望它能够向高水准的驾驶决策学习 , 做出最优的决策 。
【显示器|毫末智行AI DAY:智算中心,五大模型,以及新的天花板】毫末的每场AI DAY , 都会给出一些新的研究方向和技术手段 。 确实 , 自动驾驶技术方案距离「定型」还很早 , 也在不停地遇到新问题 , 从技术出新的速度来看 , 毫末无疑是「撞墙」最多的自动驾驶公司之一 。 不过如今 , 已经确定重感知、轻地图路线的毫末 , 似乎已经打开新的天花板了 。