人类|马化腾的2万不好赚！绝悟AI稳如猛虎，人类王者被虐成狗( 二 ) 蒙恬|英雄|kpl|王者荣耀

而关于绝悟唯一那次失败，量子位专门向其询问感受，对方表示：
这都正常…
口气云淡风轻。

文章插图

绝悟背后的骚技术
绝悟碾压人类的技术是什么？
根据腾讯官方说法，绝悟并没有所谓“开挂”，在游戏中的客观条件限制是一致的。
“绝悟”区别于人的优点主要有两点：
用一句话概括就是，比你理性，不被情绪左右，没有那种世俗欲望，还比你勤奋。

文章插图

绝悟之所以要如此勤奋，也是被王者荣耀逼的——这游戏太难了。
首先，作为是一个无法预料对方操作的不完全信息游戏，玩家需要不断探视野，敌我双方的实时位置、状态等信息不透明，AI也需要在这样的前提下做决策；
其次，王者荣耀对局复杂。
100多个英雄，这其中的阵容组合高达10的15次方种，不同的组合对应的打法又不一样。
另一方面，游戏中的角色状态、种种操作加上装备选择相当复杂。
光是想想已经头大，还要在策略规划、目标选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择。
我们也向现场技术人员做了请教：绝悟AI与谷歌ALPHAGO能力是否雷同？
对方表示：
绝悟算力水平远超ALPHAGO，因为围棋游戏背后的可能性远少于王者。
后者除操作英雄，还有协同打团，BAN人及不同英雄配合需要考虑进去，所需算力不在一个量级。
工作人员还透露了一个惊人的数字：
AI在一局里操作可能性大概有10的2万次方种。
什么概念？
整个宇宙原子总数也只是10的80次方！

文章插图

如此复杂情景对绝悟背后的AI技术要求极高。
最初版本的“绝悟”通过监督学习方法来训练，以海量有标记的训练数据为基础，推导出行为预测函数，实现拟人化。也因此，标注数据质量尤为重要。
随着研发团队在深度强化学习、多智能体决策课题上的研究不断深入，“绝悟”不再需要模仿人类数据，转而通过与自己对战，进一步提升微操水平和大局观，达到了王者荣耀职业电竞水平。
强化学习通过构建奖励和惩罚刺激环境的角度出发，优化AI行为逻辑。
根据团队技术负责人杨光介绍：
AI会通过奖励（reward）反馈，知道一个行为做的好还是不好。在获得大量反馈后，AI会渐渐摸索出能够取得胜利的行为，表现出‘学会’玩游戏的效果。

文章插图

这个方法的优点在于，不依赖已有数据并且能够探索出新的策略，甚至于超越当前人类的认知，在行为多样性和完成任务的能力方面有了质的提升。
比如在训练后期，AI 甚至自己探索出了全新策略，“比如‘绝悟’经常多人抱团吃线，从而达到经济的最大化”。

文章插图

上述技术相关论文早在2018年已经公布。
今年5月，绝悟也已在线上与很多玩家开启对战，各家媒体跟进宣传。

文章插图

论及绝悟又有什么新变化？
现场工作人员向量子位独家透露，今年5月至今，绝悟采用了更多训练KPL职业选择操作数据进行训练。
另一方面，腾讯AI Lab长期保持与顶尖高效合作，通过贡献技术数据，高校相应成果与技术也参与其中，由此，“绝悟”水平也达到了今天顶尖选手层次。