囚徒|郝建业：从囚徒困境到自动驾驶，蛰伏数十载的多智能体强化学习，期待破茧成蝶( 六 ) smart|mit

在华为，郝建业也进一步将相关技术应用到了自动驾驶技术的研发上，“由于可以保证车辆之间不碰撞，形式化系统的结合对于自动驾驶的安全性非常重要。”
郝建业认为，“仿真技术和形式化验证是两条差别比较大的路线，可以说是两个极端。其中基于深度强化学习的仿真技术笨一点，一般通过遍历所有可能场景来寻找可行的方案，而形式化验证则精一点，可以从理论上直接保证结果是可靠的，“但它们都是值得探索的方向，是互补的。”
在论文中，郝建业研究的也是相对简单的场景。而如今，这项技术对于智能电网乃至智慧城市的开发都已具有非常重要的启发意义。

文章插图

论文地址：https://groups.csail.mit.edu/sdg/pubs/2016/norms-fse16.pdf
多学科交叉的有效性或许也可以从历史中寻找渊源。博弈论最早起源于经济学，但它的创始人，实际上是计算机之父冯·诺依曼，博弈论与计算机科学之间或许早就暗藏千丝万缕的联系，如今终于在AI时代被放大。
计算机科学在艾伦·图灵提出图灵机概念后，早就有了统治科学世界的野心。哪怕十分简陋，如今做科研谁能离开计算机呢？深度学习正好在人们困惑、嘲笑计算机只能处理代码，不能理解感官世界的丰富时，提供了一个连接桥梁。似乎在神经网络中，万物都能被统一为无数的电脉冲，不同学科之间的隔阂亦不再厚重和神秘。

进化的强化学习

游戏是一个庞大的虚拟世界，疫情的到来更是将无数被困现实的新玩家涌入，让这个虚拟世界急速扩张，而里面24小时活跃着的玩家、NPC都是多智能体系统天然的研究对象。
在与网易伏羲人工智能实验室、南洋理工大学等合作完成的论文“Wuji: Automatic Online Combat Game Testing Using Evolutionary Deep Reinforcement Learning”中，郝建业等人延续多学科交叉道路，研究了如何将演化学习与强化学习结合起来，提出了动态游戏测试框架Wuji，从而将游戏测试自动化，并提高效率。

文章插图

论文地址：https://nos.netease.com/mg-file/mg/neteasegamecampus/art_works/20200812/202008122020238586.pdf
测试游戏潜在bug的一个难点，就是触发，“有些bug可能非常隐蔽，大部分玩家都不会触发，比如它可能在某个难度很高的关卡中，而一旦触发就会带来非常不好的体验。”
而现有深度强化学习主要聚焦于赢得胜利，获取高分，因此在开发探索能力上受限于目标，也就是奖励函数的设置。
例如，下图展示了一个简单的迷宫游戏，其中机器人需要寻找左上角的黄金。如果机器人到达图中标记的绿点、黄点或红点，就会触发错误。机器人可以轻松到达黄点，因为它们靠近初始位置。然而，绿点和红点更难到达，因为需要找到更精准的路径，或者距离目标太远。

文章插图

强化学习算法的两大阶段是探索（exploration）和利用（exploitation），演化算法相当于提升了强化学习算法的探索能力，从而得以遍历不同的策略，触及角落中隐藏的bug。这样的策略，其实也相当于一种游戏测试脚本，脚本指导智能体去玩游戏，遍历各种场景和各种互动。
为了实现目标，Wuji不仅考虑完成任务，还考虑寻找不同的方向，这两种策略相辅相成。比如在迷宫游戏中，完成任务的策略有助于达到一般随机策略难以覆盖的绿点，探索的策略则有助于触及可能不在游戏主线中的红点。