德州扑克|国内唯一能打德州扑克的网址曝光,中科院诚意出品,AI在线发牌( 二 )


再加上人工智能的发展历史上 , 游戏本身就是相关研究的试验场 。 用游戏训练出更厉害的AI , 就成了兴军亮的目标 。

兴军亮
为了全方位地了解不同类型游戏的机制 , 原本很少接触游戏的兴军亮开始培养自己的“网瘾”——找出代表型游戏、研究教程、练习手速、完成通关 , 哪一步都不必职业玩家少 。
在这个过程中 , 兴军亮越发觉得 , 玩游戏是一件非常有意思的事 。 尤其是不同游戏的机制设置 , 非常适合用来研究一些基础的科学问题 。 这其中 , 就有游戏博弈 。
就拿此次获奖的德州扑克AI程序来说 , 其本质就是一个不完美信息的博弈问题 。 因为按照德州扑克的游戏规则 , 每个人手上都有两张私有牌 。 牌面的大小并不影响最终的胜负 , 因为玩家完全可以通过假装牌面大、押注金额大等手段吓跑对手 。

两人无限注德州扑克一次游戏过程示意
为了教会AI打德州扑克 , 兴军亮带着团队前后用了十多台服务器 , 集中算力 , 让AI不断跟自己打牌 , 20天的时间 , 就打了1亿局左右 。
随后 , 他们又进一步提升了游戏学习的性能 。 这次 , 他们仅用1台服务器 , 训练不到3天 , 就能达到预期水平 。
而在这个过程中 , 参与训练的AI能学会一些类似于人类专业选手才会掌握的计谋 。 而这 , 正是不完美信息博弈最有趣的地方 。 目前 , 兴军亮和团队打造的德州扑克在线人机对抗平台OpenHoldem(http://holdem.ia.ac.cn/) , 目前已经对外开放 。 据兴军亮说 , 这个系统可能是国内唯一能公开打德州扑克的地方 。
当然 , 兴军亮的目标绝不仅仅是带着AI攻略下一款款游戏 。
像不完美信息博弈 , 这种机制 , 在经济政策的制定、法律法规的优化、外交策略的选择等领域 , 都有很广泛的应用 。 这些 , 是国际同行正在努力攻克的 , 也是国内相关研究比较薄弱的 。
去训练出一个更聪明、更有用、可以和人类融为一体的人工智能 , 是兴军亮不懈追求的方向 。