赛车游戏|登上《自然》封面的索尼赛车AI，是如何击败人类顶级车手的？( 二 ) 谷爱凌|深度学习|电视转播|冬

文章插图
AlphaStar用追猎者“逆克制关系”对抗MaNa的不朽者部队
同样，《GT赛车》也是一款与《星际争霸2》具备同样复杂度的拟真赛车游戏。
在专业赛车玩家的眼中，路线、速度、方向，这些最基本的赛车运动要素都可以拆解为无数细小的反应和感受，车辆的重量、轮胎的滑移、路感的反馈……每条弯道的每次过弯，都可能存在一个绝佳的油门开度，只有最顶级的车手可以触摸到那一缕“掌控”的感觉。
在某种意义上来讲，这些“操纵的极限”当然能够被物理学解释，AI能掌握的范围显然要大于人类。所以，Sophy的反应速度被限制在人类的同一水平，索尼为它分别设置了100毫秒、200毫秒和250毫秒的反应时间——而人类运动员在经过练习后对特定刺激的反应速度可以做到150毫秒左右。
无疑，这是一场比AlphaStar更公平的战斗。
Sophy学会了什么
和Sophy为数众多的AI前辈一样，它也是利用神经网络等深度学习算法来进行驾驶技巧的训练。
Sophy在训练环境中会因为不同的行为遭受相应奖励或者惩罚——高速前进是好的，超越前车则更好；相应地，出界或者过弯时候撞墙就是“坏行为”，AI会收获负反馈。
在上千台串联起的PS4组成的矩阵中，Sophy经受了无数次模拟驾驶训练，在上述学习里更新自己对《GT赛车Sport》的认知。从一个不会驾驶的“婴儿”到开上赛道，Sophy花费了数个小时的时间；一两天后，从基础的“外内外”行车线开始，Sophy已经几乎学会了所有常见的赛车运动技巧，超越了95%的人类玩家。

文章插图
索尼AI部门为Sophy搭建的“训练场”
然而，赛车并不是一个人的游戏。即便Sophy在去年7月份的比赛中，已经可以没有其他赛车的情况下拥有超出顶级人类选手的计时赛成绩，但在真实的多人游戏中，Sophy还需要学会与对手进行对抗上的博弈，理解其他车手的行为逻辑。
因此，索尼AI部门的科研人员对Sophy进行了更多的“加练”，比如面对其他车时如何插线超车、阻挡卡位。到最后，Sophy甚至还被“教育”到能够理解和遵守赛车运动中的比赛礼仪——比如作为慢车时进行让车，同时避免不礼貌的恶意碰撞。
赛车游戏中的AI车，一般即便会尝试躲避与玩家擦碰，其实现方式也只是不自然地闪躲。而Sophy呈现出的“比赛理解”，都是依靠脚本运行的传统赛车AI无法做到的。
到了10月，Sophy已经可以在正式的同场比赛中击败最顶级的人类选手。

文章插图
【赛车游戏|登上《自然》封面的索尼赛车AI，是如何击败人类顶级车手的？】索尼邀请的四位人类车手，其中包括GT锦标赛三冠王宫园拓真
比如第一场在Dragon Trail（龙之径）上进行的比赛。作为《GT赛车Sport》的驾驶学校尾关，每个GTS玩家应该都相当熟悉这条赛道（以及DLC中的“汉密尔顿挑战”）。在数万个小时的训练过后，排名第一的Sophy车手已经可以踩着绝对的最优路线保持全程第一。

文章插图
而在四个Sophy与四位人类车手角逐的第二个比赛日中，AI们的优势进一步扩大了——几乎达成了对顶级人类玩家的碾压。

文章插图
如果只是在路线的选择和判断上强过人类，用更稳定的过弯来积累圈速优势，这可能还没什么大不了的。