人类|马化腾的2万不好赚!绝悟AI稳如猛虎,人类王者被虐成狗( 二 )


而关于绝悟唯一那次失败,量子位专门向其询问感受,对方表示:
这都正常…
口气云淡风轻。
人类|马化腾的2万不好赚!绝悟AI稳如猛虎,人类王者被虐成狗
文章插图

绝悟背后的骚技术
绝悟碾压人类的技术是什么?
根据腾讯官方说法,绝悟并没有所谓“开挂”,在游戏中的客观条件限制是一致的。
“绝悟”区别于人的优点主要有两点:
用一句话概括就是,比你理性,不被情绪左右,没有那种世俗欲望,还比你勤奋。
人类|马化腾的2万不好赚!绝悟AI稳如猛虎,人类王者被虐成狗
文章插图

绝悟之所以要如此勤奋,也是被王者荣耀逼的——这游戏太难了。
首先,作为是一个无法预料对方操作的不完全信息游戏,玩家需要不断探视野,敌我双方的实时位置、状态等信息不透明,AI也需要在这样的前提下做决策;
其次,王者荣耀对局复杂。
100多个英雄,这其中的阵容组合高达10的15次方种,不同的组合对应的打法又不一样。
另一方面,游戏中的角色状态、种种操作加上装备选择相当复杂。
光是想想已经头大,还要在策略规划、目标选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择。
我们也向现场技术人员做了请教:绝悟AI与谷歌ALPHAGO能力是否雷同?
对方表示:
绝悟算力水平远超ALPHAGO,因为围棋游戏背后的可能性远少于王者。
后者除操作英雄,还有协同打团,BAN人及不同英雄配合需要考虑进去,所需算力不在一个量级。
工作人员还透露了一个惊人的数字:
AI在一局里操作可能性大概有10的2万次方种。
什么概念?
整个宇宙原子总数也只是10的80次方!
人类|马化腾的2万不好赚!绝悟AI稳如猛虎,人类王者被虐成狗
文章插图

如此复杂情景对绝悟背后的AI技术要求极高。
最初版本的“绝悟”通过监督学习方法来训练,以海量有标记的训练数据为基础,推导出行为预测函数,实现拟人化。也因此,标注数据质量尤为重要。
随着研发团队在深度强化学习、多智能体决策课题上的研究不断深入,“绝悟”不再需要模仿人类数据,转而通过与自己对战,进一步提升微操水平和大局观,达到了王者荣耀职业电竞水平。
强化学习通过构建奖励和惩罚刺激环境的角度出发,优化AI行为逻辑。
根据团队技术负责人杨光介绍:
AI会通过奖励(reward)反馈,知道一个行为做的好还是不好。在获得大量反馈后,AI会渐渐摸索出能够取得胜利的行为,表现出‘学会’玩游戏的效果。
人类|马化腾的2万不好赚!绝悟AI稳如猛虎,人类王者被虐成狗
文章插图

这个方法的优点在于,不依赖已有数据并且能够探索出新的策略,甚至于超越当前人类的认知,在行为多样性和完成任务的能力方面有了质的提升。
比如在训练后期,AI 甚至自己探索出了全新策略,“比如‘绝悟’经常多人抱团吃线,从而达到经济的最大化”。
人类|马化腾的2万不好赚!绝悟AI稳如猛虎,人类王者被虐成狗
文章插图

上述技术相关论文早在2018年已经公布。
今年5月,绝悟也已在线上与很多玩家开启对战,各家媒体跟进宣传。
人类|马化腾的2万不好赚!绝悟AI稳如猛虎,人类王者被虐成狗
文章插图

论及绝悟又有什么新变化?
现场工作人员向量子位独家透露,今年5月至今,绝悟采用了更多训练KPL职业选择操作数据进行训练。
另一方面,腾讯AI Lab长期保持与顶尖高效合作,通过贡献技术数据,高校相应成果与技术也参与其中,由此,“绝悟”水平也达到了今天顶尖选手层次。