囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶( 七 )


当时这项成果称得上是业界第一个利用机器学习方法进行游戏测试的工具,帮助游戏测试人员发现了大量多人在线游戏中之前未知的bug。相关论文也在软件工程顶级会议ASE 2019中获得了ACM SIGSOFT 杰出论文奖。

囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶
文章插图
囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶
文章插图

部分测试场景示例

8
智能体的存在性
多智能体系统研究是一个非常复杂的全局优化问题,它不像图像识别、语音生成、文本生成,通常只有固定的少量输入、输出端口,而是有多少智能体,就得有多少的输入、输出。
系统除了要满足全局优化目标,即社会利益最优,还需要考虑每个智能体的利益问题,这就涉及到了公平性,也因此郝建业格外注重这两个方面。甚至要考虑存在性问题,把多智能体系统类比为神经网络,一个智能体在某些场景下是不能像一个神经元那样被轻易dropout的。映射到真实世界的人类社会,在满足社会、企业利益目标的时候,一个普通人也不该被轻易地剥削或牺牲。
事实上,这一点在斯坦福大学计算机科学名誉教授Yoav Shoham于2006年发表的一篇论文中就有提到,即多智能体学习研究的其中一个重要目标——解释现实世界,Yoav Shoham称之为描述性范式。
囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶
文章插图

当时多智能体系统已经受到了学界广泛关注和研究,但圈子内的学者也都在困惑,这些研究的意义是什么?
针对此现象,Yoav Shoham在这篇论文中提出了惊世之问:“If multi-agent learning is the answer, what is the question?”
他通过总结当时的领域研究工作,提出了多智能体学习的5大目标:1. 计算性 2. 描述性 3. 规范性 4. 规定性,合作性 5. 规定性,非合作性。
这篇论文在当时领域内引发了很大反响,并对往后多智能体系统的研究产生了重要的指导作用。
囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶
文章插图
论文地址:http://robotics.stanford.edu/users/shoham/www%20papers/LearningInMAS.pdf
在考虑每个智能体存在性的前提下,郝建业还谈论了多智能体的通讯问题,并指出深度强化学习和表征学习,将是多智能体系统未来的重要方向。
类比于多模态学习中以向量空间作为共同表征空间,郝建业也认为智能体之间应该形成共同语言。
智能体不仅需要为自己建模,为对环境的观察建模,还需要为其它智能体建模,为其它智能体对环境的观察建模,形成心理模型。通过频繁通讯,对于某一事件,让每个智能体学习到在所有智能体中都不变的表示,这个智能体也就有了共同语言,“这种表征不受观察方式的限制,每个智能体都能理解。”
这是郝建业在华为诺亚和天津大学的团队都在重点关注的方向,“我取名叫自监督强化学习,也可以叫强化学习的表征学习。”
这种表征不仅具有还原性的特点,”比如在一个房间里有不同位置的摄像头,我们分别用不同的摄像头都能还原出房间的原本样貌,即原始信息。“还具有功能性的特点,在原始信息的基础上,我们还需要知道,在某个目标限制下,哪些方面才是最重要的,”这可以叫功能性注意力,比如我需要喝水的时候,不会管是杯子还是瓶子装的水,我需要的是能盛住水的容器。“基于功能性注意力的决策,有助于提高泛化性。