囚徒|郝建业：从囚徒困境到自动驾驶，蛰伏数十载的多智能体强化学习，期待破茧成蝶( 二 ) smart|mit

回溯至更早期时光，他恍然大悟。本科期间，他在香港理工大学张大鹏教授和哈尔滨工业大学左旺孟教授指导下做研究时，“尽管对AI没什么认知，但兴趣就是在那个时候萌芽的。”
梁教授奉行“大方向把控，小方向自由”的培养风格，因此会让学生花费大量时间自己去找方向，同时实验室的大方向都会聚焦在多智能体系统上。“这种培养方式，让我养成了非常独立的科研风格。”
如果导师在方方面面都管的太细，容易造成学生被动，视野狭窄。“有了独立的思考方式，和广阔的研究视野和对方向脉络的把握，就知道怎么规划自己的未来方向，以及在做战略转型、跨界研究的时候，都能心中有数。”
这种自由又不同于放任的散养模式，在具体执行层面，梁教授可谓细致入微，在郝建业写的第一篇论文上，梁教授就加上了密密麻麻的红色批注。

更加自由的囚徒

在博士期间，郝建业选择了公平性和社会利益最优，作为多智能体系统领域下的研究方向。
在那时候，团队以及相关领域的学者，都在研究怎么用强化学习等方法，在不同的博弈环境下快速学习到纳什均衡。“纳什均衡是博弈论里最核心的概念，甚至上世纪90年代的很多相关工作都沿着这个方向来做。”
在博弈论中，纳什均衡是指在包含两个或以上参与者的非合作博弈中，假设每个参与者都知道其他参与者的均衡策略的情况下，没有参与者可以通过单方面改变自身策略使自身受益。
囚徒困境中两个囚徒都选择招供的策略，就是一个典型的纳什均衡解。两个囚徒无法与对方进行合作（或沟通），此时选择招供就会比不招供收益更大。
那么，这类研究存在什么问题呢？很明显，均衡解虽然稳定，但不一定是最好的解。在囚徒困境中，双方都不招供其实才是全局最优解，而全局最优解又存在不稳定的问题。此外，公平性问题也是存在的，即在一个均衡点上，每一方的利益不一定对等。
因此，郝建业就在探索，怎么用强化学习的方法，让智能体有意愿、有动力、有理性地去学习到社会全局最优的、公平的解，以及研究是否存在新型的均衡解，即保留原始均衡稳定性的特点，同时有具备公平性，社会最优等属性，也就是从“策略层面”而言的均衡（strategy equilibrium）。
而当初那些基于表格的toy example，在深度强化学习的助力下，得以应对更加复杂的场景，智能体也得以产生更加多样化和灵活的决策。“反过来说，如果我们细看现在的深度强化学习的代表工作，很多其实都是借鉴了上世纪90年代至2010年之前的工作，并扩展了深度学习方法。”然而目前大部分深度强化学习下的工作还没有走到关注“策略均衡”的阶段，还停留在类比于“基于表格强化学习的多智能体系统研究“相对早期的阶段。
郝建业将“从简单到复杂”的理念贯彻至今，并在2019年首届国际分布式AI大会上，以复杂场景的囚徒困境研究获得了DAI最佳论文奖。这一次，囚徒不再限于两个选择，而是无限个，虽然这也只让其更自由了一点点。

文章插图

经典囚徒困境对囚徒的决策选择做了很大限制，要么合作，要么背叛。但囚徒困境并不是凭空捏造的思维游戏，不只有《蝙蝠侠前传2》中的小丑会玩。
在现实世界，也存在因为无法完全信任或推测对方心理，导致选择相信就可能遭遇损失的情况。可以说，存在竞争和信任危机时都容易引发囚徒困境，比如战争，乃至任何形式的合作关系。毕竟，合作意味着妥协，意味着出让部分利益，这就让背叛者有机可乘。在论文中，郝建业等人将这种背叛行为称之为“剥削”。