囚徒|郝建业：从囚徒困境到自动驾驶，蛰伏数十载的多智能体强化学习，期待破茧成蝶( 四 ) smart|mit

文章插图

论文地址：https://arxiv.org/pdf/2010.09776.pdf
缺乏互动场景研究会导致一个问题，即自动驾驶汽车在遭遇复杂场景时，通常选择更加保守的策略，比如放慢速度，而不是主动寻找另一条出路。即便是采用了保守的方案，也不见得安全。
在 2018 年的加利福尼亚州，57% 的自动驾驶汽车事故是追尾事故，29% 是侧滑事故。所有这些都是其他汽车造成的，因此可以归因于自动驾驶汽车的保守性。
类比于自动驾驶汽车的L0-L5级别，郝建业等人在这项研究中提出了“多智能体学习级别”，或简称“M级别”。
其中，M0级别的智能体为完全遵守规则的保守派；M1级别的智能体可以在线学习，以增加应对未知情况的能力；M2级别的智能体要学会建模其他智能体，但还没有直接的信息交换；M3级别的智能体在训练期间会进行信息交换，在部署时则不需要；M4级别的智能体需要学会应对局域交互场景，比如十字路口会车，找到符合纳什均衡或其他均衡的策略；M5级别的智能体则需要在满足全局最优的前提下，去学习局域决策。
郝建业等人认为，迄今为止，自动驾驶研究主要集中在 M0，对 M1 和 M2 的尝试非常有限，而一个关键原因是缺乏对道路上的异构智能体之间交互的合适模拟。看来这个标准相比“L级别”要更加严苛。
在第二届DAI（DAI 2020）上，华为诺亚基于该平台举办了自动驾驶挑战赛，郝建业回忆道，“比赛中，选手们没有局限于强化学习，提出了多种不同的解决方案，这是一个很好的现象。”
他进一步说道，“SMARTS有两方面的价值，一方面是它作为平台，可以让所有做相关研究的人针对自动驾驶的不同场景做相关算法的研究。另一方面，我们希望通过这个平台，生成多样化的真实社会模型，从而让自动驾驶算法在现实落地中安全、有效。”
17世纪，当伽利略观察金属球在光滑的斜面上滚过时，不会想到这背后的物理学支撑着如今在天空中飞驰的蜻蜓状庞然巨物。
多智能体强化学习从最初的表格学习，进化到今天的自动驾驶模拟，亦宛如完成了《2001太空漫游》中的史诗级蒙太奇一般。

文章插图

相信时间之力量的信念，或许有一部分来自郝建业在MIT期间受到的潜移默化的影响。

MIT往事

2013年，郝建业博士毕业于香港中文大学，毕业后远走美国，在MIT CSAIL做博士后研究。
“CSAIL给我的整体感觉是，学术氛围非常浓厚。他们有最顶尖的人才，学生、老师之间交流起来没有隔阂，没有辈分顾虑，非常舒服，学术合作的效率也非常高。”
这种浓厚可以用“听不完的讲座，参加不完的学术竞赛和研讨会”来形容，也可以借鉴一句名言来体会。MIT第十三任校长、计算机科学与工程系教授Jerome Weisner曾经说过“Getting an education from MIT is like taking a drinkfrom a fire hose.”这句话是说，在麻省理工学院读书就像是从消防栓里喝水，“想想消防栓的水量，那是根本喝不完的。”
郝建业提到了一个有趣的细节。MIT CSAIL的学术大牛非常多，随随便便就能遇到，可能是你在食堂吃饭的时候，也可能是你在运动场上散步的时候，“我有一次在电梯里遇到了一位老学者Silvio Micali，其貌不扬，当时没注意，结果上课的时候才发现，那是我们的授课老师，而且拿了当年的图灵奖。”