顾维灏举例称 , 在保定有一个非常复杂的六岔口 , 毫末希望能在模型的辅助下 , 根据视觉推断出道路的连接点和分岔点 , 自动能生成一个虚拟的合理车道线 。
为求达到在认知决策上的「拟人」的效果 , 毫末还采用了「人驾自监督认知大模型」 。 同样是数据驱动 , 这一模型利用人类的反馈 , 让模型学习辨别优质解法和劣质解法 。
「这种思路其实也类似ChatGPT的训练 。 从最早的GPT1到现在的ChatGPT , 除了在模型参数量上有近千倍的提升之外 , 最重要的是ChatGPT模型使用了『利用人类反馈强化学习RLHF』的训练方式 , 更好的利用了人类知识 , 让模型自己能够判断其答案的质量 。 」顾维灏说道 。
由此 , 毫末也借鉴了RLHF以人类反馈做强化学习的方式 , 分辨好的和不好的驾驶行为 。 「我们用人驾正常行为 , 接管数据和人驾异常行为数据训练了一个reward model , 做认知大模型的强化学习训练 。 」艾锐补充解释道 。
从前 , 模型会倾向将一个场景下的不同驾驶行为 , 拟合为大家的平均水平 , 也就是说学习的是「普通司机」的水平 , 而如今 , 毫末更希望它能够向高水准的驾驶决策学习 , 做出最优的决策 。
【显示器|毫末智行AI DAY:智算中心,五大模型,以及新的天花板】毫末的每场AI DAY , 都会给出一些新的研究方向和技术手段 。 确实 , 自动驾驶技术方案距离「定型」还很早 , 也在不停地遇到新问题 , 从技术出新的速度来看 , 毫末无疑是「撞墙」最多的自动驾驶公司之一 。 不过如今 , 已经确定重感知、轻地图路线的毫末 , 似乎已经打开新的天花板了 。
- 联合创新 INNOCN推出了一款型号为 27G1R的游戏显示器|联合创新发布27g1r游戏显示器
- 显示器|业界新闻:华硕电脑狂欢节火爆开启,爆款电竞显示器钜惠超值!
- 液晶显示器|都 2023 年了,LCD 还有好屏吗?真的还有未来?
- 显示器|聊聊电视的输入延迟:看起来很重要,但大多数用户无需在意
- 外星人在CES上发布的AW2524H显示器现已上架京东|外星人aw2524h显示器上架京东7499元
- 外星人|7499元 外星人新款24.5寸电竞显示器上架:500Hz超高刷新率
- 重症监护室|华硕玩家国度ROG25Pro显示器测评,重新定义游戏体验
- 液晶显示器|第二个“华为”露出“真面目”,外媒:低估了中企的实力
- 影驰进军游戏显示器市场发布27英寸2k165hz屏
- 影驰|影驰首次涉足游戏显示器:27寸2K屏、165Hz高刷