囚徒|郝建业：从囚徒困境到自动驾驶，蛰伏数十载的多智能体强化学习，期待破茧成蝶( 五 ) smart|mit

文章插图
Silvio Micali
“不仅是学校和老师，MIT整体的学术氛围也造就了实验室博士生非常务实的研究风格，希望博士期间作出有影响力的工作，而不是盲目于发论文。如果没有做出自己满意的成果，很多学生会主动要求延毕，7年毕业对于他们而言是很正常的。”

文章插图

如果一个MIT博士生毕业时的学术成果不行，就会被评价学术潜力一般，这对以后的发展会有很大影响。“因此，他们情愿延期一到两年，拿出有代表性的成果，再去找教职，或进入市场竞争。”
所谓的代表性成果，不是看论文数量，而是看工作的价值，“价值是要往长远去看的，不管是学术层面的奠基性作用，还是应用层面的普惠意义。”
在博士后期间，团队研究课题聚焦在基于AI+形式化的方法来实现CPS系统安全，团队大部分成员包括郝建业的导师、MIT计算机科学系教授Daniel Jackson，主要专注的领域是形式化验证。

形式化的强化学习

形式化验证即是用数学方法验证系统是否存在bug，比如在CPU设计中用计算机模拟验证是否存在潜在问题。因此，形式化验证也可以叫软件模拟，重点在于预防错误发生。
在这里，郝建业探索了另一条研究道路——学科交叉。其实，在博士期间，他就在广泛地做多学科阅读，比如微观经济学、行为科学等等，“多智能体系统是一个交叉学科，不会局限于计算机科学。”
甚至在本科大三实习期间，郝建业第一次接触科研，也就是走进香港理工大学张大鹏教授的实验室时，做的也不是多智能体系统研究，而是生物信息学方面的工作，这也是他在哈工大王宽全教授指导下研究的方向。当时他做的课题是基于传统机器学习的舌头病变检测，除了数据准备，也要做特征提取。在郝建业的思维里，“AI不只有端到端，不只有深度学习”的思想，从那时候就埋下了种子。
在Daniel Jackson的指导下，郝建业探索了将多智能体系统和形式化验证结合的方向，并卓有成效。
以智能交通为例，郝建业研究了如何在所有行人、车辆等智能体都遵循相同交通规则的前提下，保证行人、车辆之间都不会相撞，并找到满足条件的最少规则。这里，相撞即是形式化验证中要寻找的bug。
例如，为避免碰撞，两列自主列车在同一条隧道中行驶，可以执行“如果在隧道内观察到另一列列车，则不应允许移动动作”的规则。也就是说，这项工作尝试让AI自动设计最适合的交通规则，并能够自动化验证该套规则是否安全可靠。
在形式化规则约束下，对于交通系统中的每辆车而言，它们都只知道在当前局部场景下应该遵守的规则，和可选的决策，而不知道远处其它智能体的情况，但最终整个交通系统的效率能达到全局最优。研究结果也显示，AI找到的规则和手动设计的规则效果相当。
而反观现实中常见的堵车问题，郝建业指出，“这本质上其实是缺乏规则共识。”每个人心中对于规则的认可程度都不一样，导致单一的形式化系统的预测在现实中根本匹配不上。人与自动驾驶汽车之间也存在类似关系，“有一个说法是，只有真人驾驶汽车的道路，与只有自动驾驶汽车的道路，在通畅度上也会更好。”

文章插图

”多阅读交叉学科的文章，对以后的工作会有长期的启发性影响。”郝建业在博士期间受到的提点，终于在这一刻有了真实的感悟。