德州扑克|国内唯一能打德州扑克的网址曝光，中科院诚意出品，AI在线发牌德克萨斯州

文章图片

文章图片

一项国际卓越论文奖颁给了德州扑克？
这是真事。
【德州扑克|国内唯一能打德州扑克的网址曝光，中科院诚意出品，AI在线发牌】
最近，在美国人工智能协会举办的人工智能国际顶会——AAAI 2022上，大会卓越论文奖，颁给了一个轻量型德州扑克AI程序——AlphaHoldem 。在和高水平德州扑克选手的对抗中，它的决策速度和各方面表现，已经达到人类专业玩家的水平。
而这项AI程序，就来自中国科学院自动化所的兴军亮团队。
打个扑克都能写论文？
这个德州扑克AI ，到底有什么了不起？
德州扑克&人工智能德州扑克和人工智能，普通人不管怎么看，第一反应都会觉得它俩之间，是风马牛不相及。但只要想一想那个和柯洁下围棋的AlphaGo ，是不是就好理解了？
没错，这一次获奖的德州扑克AI——AlphaHoldem ，就是类似AlphaGo的所在。只不过，在针对AlphaHoldem的训练过程中，它的训练模型是德州扑克。

用游戏做AI的训练模型，在人工智能领域，已经是很常见的一件事。
和围棋相比，德州扑克更能考验AI在信息不完备、对手不确定情况下的智能博弈技术。所以近几年来，业内公认德州扑克非常适合作为一个虚拟实验环境，对博弈的相关基础理论方法、核心技术算法，进行深入研究。
目前，比较主流的德州扑克AI核心思想，是利用一种“反事实遗憾最小化（CFR）”算法，逼近纳什均衡策略——即任意一位参与者，在其他所有参与者策略确定的情况下，他所做的策略都是“最优解” 。
不过，这种方法一直有一个比较明显的缺陷：它太过依赖人类专家去进行博弈树抽象。这就意味着，无论是在进行AI训练还是最后对局，它都需要大量的计算和存储资源。而这，也成为限制德州扑克AI进一步发展的阻碍。
兴军亮团队之所以能在AAAI 2022上获得卓越论文奖，就是因为他们为AlphaHoldem采用了一种新的、基于端到端的深度强化学习算法。

端到端学习德州扑克AI学习框架
这种新算法将一种改进后的深度强化学习算法与一种新型的自博弈学习算法相结合，可以在不借助任何领域知识的情况下，直接从牌面信息端到端地学习候选动作，然后做出决策。
数据显示， AlphaHoldem每次决策的速度甚至都不到3毫秒，比之前同类AI决策速度快了1000倍。并且， AlphaHoldem与4位高水平德州扑克选手对抗1万局的结果也证明，它已经达到了人类专业玩家水平。
成为AI玩家“训练师”研究成果得到国际主要学术组织的认可，是一件不俗的成绩。
但谁能想到，能取得这样成绩的兴军亮，居然是“半路出家”？他最初是研究计算机视觉的，简单来说就是教AI识别“是什么” 。但随着研究的深入，兴军亮发现，只教会AI“是什么” ，和真正的人工智能目标相差甚远。未来该怎么走，困扰了他很久。
兴军亮之所以有了用游戏训练AI的想法，最早还是受到了AlphaGo的启发。透过教AI下围棋，兴军亮发现，这个动作的实质其实是在解决AI领域的“认知智能”问题，让AI不但知道“是什么” ，还能知道“为什么” 。