清华等世界12所顶尖高校学霸组团“打王者”,竟是为了搞科研?

清华等世界12所顶尖高校学霸组团“打王者”,竟是为了搞科研?
文章图片
新智元报道
编辑:好困桃子
【新智元导读】见过学霸打王者的样子吗?这不 , 清华、中科大、耶鲁等世界12所顶尖高校学霸集结 , 一来打王者 , 二来搞科研 。
清华等世界12所顶尖高校学霸组团“打王者”,竟是为了搞科研?】之前凑在一起「打王者」的学霸又来了!
成都大运会开幕在即 , 「世界大学生数智竞技邀请赛」正式启动 。
国际级规模的大赛共邀请了12支队伍(包含中国大陆地区4所高校、中国港澳台地区及海外8所高校)参加 。
每支队伍都需要训练三位英雄 , 并在之后让自己的AI进行「3V3」的对战 , 而获得冠军的团队可获得高达20万的奖金 。
清华等世界12所顶尖高校学霸组团“打王者”,竟是为了搞科研?
文章图片
在此前的1V1中 , 各大高校的AI各种「骚操作」不断 。
比如 , 丝血完成反杀之后 , 又闪现进塔的蓝方貂蝉 。
在这背后默默提供支持的 , 正是以「强化学习」为基础 , 《王者荣耀》和腾讯AILab共同研发的AI开放研究平台——开悟 。
不过 , 为什么是强化学习?
强化学习和游戏有什么关系?
强化学习(ReinforcementLearning)是除了监督学习和非监督学习之外的第三种基本的机器学习方法 。 一定程度上 , 一些复杂的强化学习算法在具备解决复杂问题的通用智能 , 可以在围棋和电子游戏中达到人类水平 , 算是现阶段人工智能领域研究中的一门「必修课」 。
举个例子 , 不知道大家还记不记得曾经风靡一时的FlappyBird吗 , 这其实就是一个典型的强化学习场景:
1.智能体——小鸟
2.与智能体进行交互的「环境」——参差不齐的水管
3.智能体可能做出的「动作」——向上飞一下或者什么都不做
4.智能体采取的行动所遵循的「策略」——为躲避水管而采取行动的概率
5.智能体在采取行动时得到的「奖励」——飞得越远得分就越高
环境会给智能体一个观测值 , 智能体接收到环境给的观测值之后会做出一个动作,这个动作给予一个奖励 , 以及给出一个新的观测值 。 智能体根据环境给予的奖励值去更新自己的策略 。
最终 , 智能体能通过强化学习找到一种方法 , 使自己从系统的每个状态中提取的平均价值最大化 。
清华等世界12所顶尖高校学霸组团“打王者”,竟是为了搞科研?
文章图片
虽然早在上世纪50年代 , 强化学习的相关理论就已经开始成形 。 但真正走入到大众的视野之中 , 还是要靠着「游戏」 。
2016年1月 , DeepMind的围棋AI——AlphaGo登上《Nature》封面:MasteringthegameofGowithdeepneuralnetworksandtreesearch(通过深度神经网络和搜索树 , 学会围棋游戏) 。
通过利用强化学习的ValueNetworks(价值网络)和PolicyNetworks(策略网络) , AlphaGo可以实现棋盘位置的评估 , 以及步法的选择 。
两个月后 , AlphaGo在和李世石的对战中实现惊天逆转 , 取得胜利 。
清华等世界12所顶尖高校学霸组团“打王者”,竟是为了搞科研?
文章图片
看到AlphaGo的成功 , OpenAI直呼厉害!
于是在2016年11月 , OpenAIFive正式立项 。
虽然相比于更加正经的围棋来说 , 玩《Dota2》的OpenAIFive感觉完全是在「不务正业」 。 但实际上 , 后者的难度其实要高得多:
OpenAIFive需要从8000到80000个动作中做出选择 , 其中每一步还需观察约16000个值 。 相比之下 , 国际象棋中平均的可行动作是35个 , 围棋是250个 。