囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶( 五 )


文章插图
Silvio Micali
“不仅是学校和老师,MIT整体的学术氛围也造就了实验室博士生非常务实的研究风格,希望博士期间作出有影响力的工作,而不是盲目于发论文。如果没有做出自己满意的成果,很多学生会主动要求延毕,7年毕业对于他们而言是很正常的。”
囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶
文章插图

如果一个MIT博士生毕业时的学术成果不行,就会被评价学术潜力一般,这对以后的发展会有很大影响。“因此,他们情愿延期一到两年,拿出有代表性的成果,再去找教职,或进入市场竞争。”
所谓的代表性成果,不是看论文数量,而是看工作的价值,“价值是要往长远去看的,不管是学术层面的奠基性作用,还是应用层面的普惠意义。”
在博士后期间,团队研究课题聚焦在基于AI+形式化的方法来实现CPS系统安全,团队大部分成员包括郝建业的导师、MIT计算机科学系教授Daniel Jackson,主要专注的领域是形式化验证。

6
形式化的强化学习
形式化验证即是用数学方法验证系统是否存在bug,比如在CPU设计中用计算机模拟验证是否存在潜在问题。因此,形式化验证也可以叫软件模拟,重点在于预防错误发生。
在这里,郝建业探索了另一条研究道路——学科交叉。其实,在博士期间,他就在广泛地做多学科阅读,比如微观经济学、行为科学等等,“多智能体系统是一个交叉学科,不会局限于计算机科学。”
甚至在本科大三实习期间,郝建业第一次接触科研,也就是走进香港理工大学张大鹏教授的实验室时,做的也不是多智能体系统研究,而是生物信息学方面的工作,这也是他在哈工大王宽全教授指导下研究的方向。当时他做的课题是基于传统机器学习的舌头病变检测,除了数据准备,也要做特征提取。在郝建业的思维里,“AI不只有端到端,不只有深度学习”的思想,从那时候就埋下了种子。
在Daniel Jackson的指导下,郝建业探索了将多智能体系统和形式化验证结合的方向,并卓有成效。
以智能交通为例,郝建业研究了如何在所有行人、车辆等智能体都遵循相同交通规则的前提下,保证行人、车辆之间都不会相撞,并找到满足条件的最少规则。这里,相撞即是形式化验证中要寻找的bug。
例如,为避免碰撞,两列自主列车在同一条隧道中行驶,可以执行“如果在隧道内观察到另一列列车,则不应允许移动动作”的规则。也就是说,这项工作尝试让AI自动设计最适合的交通规则,并能够自动化验证该套规则是否安全可靠。
在形式化规则约束下,对于交通系统中的每辆车而言,它们都只知道在当前局部场景下应该遵守的规则,和可选的决策,而不知道远处其它智能体的情况,但最终整个交通系统的效率能达到全局最优。研究结果也显示,AI找到的规则和手动设计的规则效果相当。
而反观现实中常见的堵车问题,郝建业指出,“这本质上其实是缺乏规则共识。”每个人心中对于规则的认可程度都不一样,导致单一的形式化系统的预测在现实中根本匹配不上。人与自动驾驶汽车之间也存在类似关系,“有一个说法是,只有真人驾驶汽车的道路,与只有自动驾驶汽车的道路,在通畅度上也会更好。”
囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶
文章插图

”多阅读交叉学科的文章,对以后的工作会有长期的启发性影响。”郝建业在博士期间受到的提点,终于在这一刻有了真实的感悟。