囚徒|郝建业:从囚徒困境到自动驾驶,蛰伏数十载的多智能体强化学习,期待破茧成蝶( 七 )
当时这项成果称得上是业界第一个利用机器学习方法进行游戏测试的工具,帮助游戏测试人员发现了大量多人在线游戏中之前未知的bug。相关论文也在软件工程顶级会议ASE 2019中获得了ACM SIGSOFT 杰出论文奖。
文章插图
文章插图
部分测试场景示例
系统除了要满足全局优化目标,即社会利益最优,还需要考虑每个智能体的利益问题,这就涉及到了公平性,也因此郝建业格外注重这两个方面。甚至要考虑存在性问题,把多智能体系统类比为神经网络,一个智能体在某些场景下是不能像一个神经元那样被轻易dropout的。映射到真实世界的人类社会,在满足社会、企业利益目标的时候,一个普通人也不该被轻易地剥削或牺牲。
事实上,这一点在斯坦福大学计算机科学名誉教授Yoav Shoham于2006年发表的一篇论文中就有提到,即多智能体学习研究的其中一个重要目标——解释现实世界,Yoav Shoham称之为描述性范式。
文章插图
文章插图
- 30天卖货7500万,直播间多次上热搜,郝劭文凭什么那么牛?
- 泰山队球迷送出大蛋糕!预祝主教练郝伟预祝生日快乐!
- 郝吉虎调研滨州交通发展集团有限公司主城区道路工程项目
- 相机|郝一点和公司闹掰了?短视频账号更新,却被怀疑是假号
- 内卷|02 双11的囚徒困境
- 这项技术已经改变并将继续深刻改变我们的世界……——专访中国科学院院士郝跃|瞭望 | 瞭望
- 乾坤|郝俊杰升任代码乾坤技术合伙人,掌舵物理引擎夯实元宇宙底层
- 器件|全国教书育人楷模郝跃: 做好教书育人的一颗螺丝钉
- 国家工程研究中心|全国教书育人楷模郝跃: 做好教书育人的一颗螺丝钉
- 囚徒|斗鱼虎牙的钱途陌路