AI赛车手打败人类三冠王，登上Nature封面( 二 ) 鱼羊博雯发自凹非寺量子位|公

文章图片
训练主要针对两个连续值的维度：转向和速度。
同时，为了把GTSophy和人类拉到同一起跑线上，研究者们还调慢了它的操作速度：
对游戏的交互频率为10赫兹（人类标准是60赫兹），反应时间则分别为100毫秒、200毫秒、250毫秒。
在一张完整的地图中，研究者以6秒为单位，将智能体所跑的赛道量化为一段一段的“静态地图段” ，并将每一段赛道的左右边缘和中心线编码为60个等距的三维点：

文章图片
训练场准备好了，现在就是让GTSophy真正成为一名会转弯、会思考的赛车手。
行为者-评价者机制
索尼使用了一种新的深度学习算法，也叫做量化回归的行为者-评价者（QR-SAC）方法。
AI智能体会被扔到一个没有指令的环境中，并根据评价者（也就是价值函数）的评估来选择行动，并根据完成目标的结果而获得奖励或惩罚。
比如，智能体会因为保持高速前进而获奖励，也会因为出界、撞墙或失去牵引力受到惩罚。
这种奖惩机制使智能体迅速得到积极的反馈，慢慢开始熟悉在赛道上的行为。
事实上， GTSophy只用了几个小时就学会了在赛道上行驶，并很快就在Maggiore赛道上超越了17700名玩家：

文章图片
但这种单纯的速度，或者说赛道完成进度上的奖励并不足以激励智能体赢得比赛。
因为如果对手速度足够快，智能体就完全可以通过跟随并学习对手的“偷懒”的方式积累大量奖励，最终也能完成目标。
于是，研究者们增加了“超车奖励” ，并且，相对于对手的距离的改变也会与奖励积分成比例。
同时，赛车的碰撞上也有奖惩机制，研究人员设置了一种较为保守的奖励：
在确保智能体能以足够强悍的驾驶风格赢得胜利的同时，也不至于会粗暴地将其他赛车赶出道路，而遭受真正的赛车规则的惩罚。
最终， GTSophy在GT赛车比赛中胜过了2021年TGRGT杯冠军、2020年国家杯世界冠军和2021年亚军、2018年国家杯亚洲/大洋洲冠军等多位世界顶级赛车手。

文章图片
在比赛中， GTSophy在三条赛道上都取得了第一名。
而在比赛中，它能够执行几种类型的转弯，有效地利用漂移，扰乱后面车辆，拦截对手并执行其他紧急操纵。

文章图片
不过，研究者也提到， GTSophy在战略决策方面还存在着一些改进的空间：有时会在同一条跑道上留出足够的空间，让对手有机可乘。
索尼要用它开发自动驾驶
看到这里，你觉得GTSophy能力如何？
反正几位世界级选手们是服气了。
在GT赛车世界级赛事上斩获三冠的宫园拓真（TakumaMiyazono）表示：
Sophy的速度非常快，单圈时间胜过了此前对最佳车手的预期。
——在其中一场比赛中， GTSophyRouge以5.8秒的优势战胜了第二名山中智明（2021年TGRGT杯冠军），最快圈速为1：54.373 ，比山中快了2秒多。
而GTSophy的能力显然不仅仅能在游戏中大杀四方。
斯坦福汽车研究中心联合主任ChrisGerdes教授就指出， GTSophy背后的AI技术，可以帮助开发自动驾驶汽车：
GTSophy在赛道上的成功表明，有朝一日，神经网络在自动驾驶汽车软件中的作用可能比现在更大。