AI赛车手打败人类三冠王,登上Nature封面( 二 )
文章图片
训练主要针对两个连续值的维度:转向和速度 。
同时 , 为了把GTSophy和人类拉到同一起跑线上 , 研究者们还调慢了它的操作速度:
对游戏的交互频率为10赫兹(人类标准是60赫兹) , 反应时间则分别为100毫秒、200毫秒、250毫秒 。
在一张完整的地图中 , 研究者以6秒为单位 , 将智能体所跑的赛道量化为一段一段的“静态地图段” , 并将每一段赛道的左右边缘和中心线编码为60个等距的三维点:
文章图片
训练场准备好了 , 现在就是让GTSophy真正成为一名会转弯、会思考的赛车手 。
行为者-评价者机制
索尼使用了一种新的深度学习算法 , 也叫做量化回归的行为者-评价者(QR-SAC)方法 。
AI智能体会被扔到一个没有指令的环境中 , 并根据评价者(也就是价值函数)的评估来选择行动 , 并根据完成目标的结果而获得奖励或惩罚 。
比如 , 智能体会因为保持高速前进而获奖励 , 也会因为出界、撞墙或失去牵引力受到惩罚 。
这种奖惩机制使智能体迅速得到积极的反馈 , 慢慢开始熟悉在赛道上的行为 。
事实上 , GTSophy只用了几个小时就学会了在赛道上行驶 , 并很快就在Maggiore赛道上超越了17700名玩家:
文章图片
但这种单纯的速度 , 或者说赛道完成进度上的奖励并不足以激励智能体赢得比赛 。
因为如果对手速度足够快 , 智能体就完全可以通过跟随并学习对手的“偷懒”的方式积累大量奖励 , 最终也能完成目标 。
于是 , 研究者们增加了“超车奖励” , 并且 , 相对于对手的距离的改变也会与奖励积分成比例 。
同时 , 赛车的碰撞上也有奖惩机制 , 研究人员设置了一种较为保守的奖励:
在确保智能体能以足够强悍的驾驶风格赢得胜利的同时 , 也不至于会粗暴地将其他赛车赶出道路 , 而遭受真正的赛车规则的惩罚 。
最终 , GTSophy在GT赛车比赛中胜过了2021年TGRGT杯冠军、2020年国家杯世界冠军和2021年亚军、2018年国家杯亚洲/大洋洲冠军等多位世界顶级赛车手 。
文章图片
在比赛中 , GTSophy在三条赛道上都取得了第一名 。
而在比赛中 , 它能够执行几种类型的转弯 , 有效地利用漂移 , 扰乱后面车辆 , 拦截对手并执行其他紧急操纵 。
文章图片
不过 , 研究者也提到 , GTSophy在战略决策方面还存在着一些改进的空间:有时会在同一条跑道上留出足够的空间 , 让对手有机可乘 。
索尼要用它开发自动驾驶
看到这里 , 你觉得GTSophy能力如何?
反正几位世界级选手们是服气了 。
在GT赛车世界级赛事上斩获三冠的宫园拓真(TakumaMiyazono)表示:
Sophy的速度非常快 , 单圈时间胜过了此前对最佳车手的预期 。
——在其中一场比赛中 , GTSophyRouge以5.8秒的优势战胜了第二名山中智明(2021年TGRGT杯冠军) , 最快圈速为1:54.373 , 比山中快了2秒多 。
而GTSophy的能力显然不仅仅能在游戏中大杀四方 。
斯坦福汽车研究中心联合主任ChrisGerdes教授就指出 , GTSophy背后的AI技术 , 可以帮助开发自动驾驶汽车:
GTSophy在赛道上的成功表明 , 有朝一日 , 神经网络在自动驾驶汽车软件中的作用可能比现在更大 。
- 本文转自:新闻110连办三届吸引了国内外17593支队伍52933名选手报名参赛累计提交...|百万奖金!这项全国瞩目的比赛即将开赛
- 本文转自:新福建作为数字中国建设峰会的有机组成部分由数字中国建设峰会组委会主办的2022...|启动报名!福州这项大赛就等你来
- 播报|硬核科技为冬奥观赛体验创下多个第一
- 【最新】世赛筹办、新增就业、人才吸引……来看2022上海人社任务清单
- 赛力斯|真我GT Neo3电竞版曝光!重点是支持125W快充,OPPO 125W量产了?
- AMD|350亿美元收购赛灵思成了!AMD:交易预计2月14日完成
- 真实赛车|《自然》论文:人工智能在对战赛车游戏中战胜世界冠军级玩家
- 安卓手机|手机配置赛过电脑,运存真的越大越好?12GB其实已经足够
- 骨骼|4.6亿中国人的需求,康复赛道大爆发!这位85后博士刚刚拿下上亿融资
- 意图|4.6亿中国人的需求,康复赛道大爆发!85后博士刚刚拿下上亿融资