显示器|毫末智行AI DAY：智算中心，五大模型，以及新的天花板( 三 ) 显卡|数码

顾维灏举例称，在保定有一个非常复杂的六岔口，毫末希望能在模型的辅助下，根据视觉推断出道路的连接点和分岔点，自动能生成一个虚拟的合理车道线。
为求达到在认知决策上的「拟人」的效果，毫末还采用了「人驾自监督认知大模型」。同样是数据驱动，这一模型利用人类的反馈，让模型学习辨别优质解法和劣质解法。
「这种思路其实也类似ChatGPT的训练。从最早的GPT1到现在的ChatGPT ，除了在模型参数量上有近千倍的提升之外，最重要的是ChatGPT模型使用了『利用人类反馈强化学习RLHF』的训练方式，更好的利用了人类知识，让模型自己能够判断其答案的质量。」顾维灏说道。

由此，毫末也借鉴了RLHF以人类反馈做强化学习的方式，分辨好的和不好的驾驶行为。「我们用人驾正常行为，接管数据和人驾异常行为数据训练了一个reward model ，做认知大模型的强化学习训练。」艾锐补充解释道。
从前，模型会倾向将一个场景下的不同驾驶行为，拟合为大家的平均水平，也就是说学习的是「普通司机」的水平，而如今，毫末更希望它能够向高水准的驾驶决策学习，做出最优的决策。
【显示器|毫末智行AI DAY：智算中心，五大模型，以及新的天花板】毫末的每场AI DAY ，都会给出一些新的研究方向和技术手段。确实，自动驾驶技术方案距离「定型」还很早，也在不停地遇到新问题，从技术出新的速度来看，毫末无疑是「撞墙」最多的自动驾驶公司之一。不过如今，已经确定重感知、轻地图路线的毫末，似乎已经打开新的天花板了。