清华等世界12所顶尖高校学霸组团“打王者”，竟是为了搞科研？( 二 ) 新智元报道编辑：好困桃子【

经过近3年的训练， OpenAIFive在2019年以2:0击败了世界冠军团队。

文章图片
同年， DeepMind也祭出了自己潜心打造的AlphaStar ，在《星际争霸2》中以5比0的比分，击败了顶尖的职业级玩家。

文章图片
当然，除了利用已有的游戏场景训练强化学习智能体以外，也可以从0打造「训练基地」。
2021年，在斯坦福教授李飞飞的带领下，研究小组创建了一个计算机模拟的「游乐场」——DERL（深度进化强化学习）。
在这篇刊登在《自然通讯》上的论文中，团队设置了一个虚拟空间，并将简单的模拟生物放入其中。当然，这些生物只是一些通过「随机方式」进行移动的「几何图形」（Unimal）。
这些Unimal生长在不同的星球中，星球中充满了「起伏的山丘」和「低矮的障碍物」，他们在更加激烈的环境中展开竞争。
Unimal必须通过这些多变的地形，并将一个块状物移动到目标位置，而只有胜者才能继续产生后代。
李飞飞的这项研究也位学界带来了一种新的思路：当我们不知道该如何设计执行特殊任务的机器人时，不妨在强化学习的环境中让它们自己「进化」出合适的形态。

文章图片
说到这里其实已经不难看出，不管是顶级的公司，还是大学的教授都在利用游戏+强化学习的形式来探索人工智能新的边界。
在如此重要的领域里，怎么能少了中国团队的身影。
于是乎，王者荣耀AI正式发布。
与《Dota2》和《星际争霸2》类似，在《王者荣耀》中玩家的动作状态空间高达10的20000次方，远远大于围棋及其他游戏，甚至超过整个宇宙的原子总数（10的80次方）。
王者荣耀AI产品可以分为两个部分：「打游戏」的王者绝悟以及「造绝悟」的开悟平台。
王者绝悟，简单来说就是《王者荣耀》版的OpenAIFive或AlphaStar ，它是《王者荣耀》与腾讯AILab共同探索人工智能在游戏场景应用而推出的「策略协作型AI」。
其中，「策略」指的是AI能够通过获取到的信息，分析局势优化策略，做出更有利于获胜的行为。「协作」则指操作游戏内多个智能体（即多个不同的英雄）互相配合，协同推进博弈。
在2018年对战顶尖水平的非职业战队时，王者绝悟就表现出即时策略团队协作能力。
在对方团灭后，兵线还尚未到达，下路高地塔还有过半血量，王者绝悟果断选择四人轮流抗塔，无兵线强拆。

文章图片
不过，在训练这些AI之前，首先得有一个可供训练的平台。
对于DeepMind和OpenAI来说，只需稍稍发挥一下自己的影响力就能在现成的游戏平台上开启「深度合作」模式。
然而，对于普通的研究者来说，想要在这些游戏上做研究就只能调用开放的接口了，体验上来讲肯定要差许多。
不过，以《王者荣耀》为模拟环境的开悟平台就不一样了，虽然也是基于游戏，但却是开放的。
再结合上算法、数据、算力的优势，开悟平台可以为学术研究人员提供一个全栈打通的闭环科研验证环境。
除了可以提供「AI+游戏」的研究场景，以及大规模弹性算力来支撑AI的研究外，还有统一的强化框架来加速研发。
不仅如此，开悟平台还会提供通用的训练和推理服务，进一步加速AI的训练。