DeepMind 最新发文:AlphaZero 的黑箱打开了

AlphaZero表明神经网络可以学到人类可理解的表征 。作者|李梅
编辑|陈彩娴
国际象棋一直是AI的试验场 。 70年前 , 艾伦·图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器 。 上世纪出现的“深蓝”第一次击败人类 , 但它依赖专家编码人类的国际象棋知识 , 而诞生于2017年的AlphaZero作为一种神经网络驱动的强化学习机器实现了图灵的猜想 。
AlphaZero的无需使用任何人工设计的启发式算法 , 也不需要观看人类下棋 , 而是完全通过自我对弈进行训练 。
那么 , 它真的学习了人类关于国际象棋的概念吗?这是一个神经网络的可解释性问题 。
最近 , AlphaZero的作者DemisHassabis与DeepMind的同事以及谷歌大脑的研究员合作了一项研究 , 在AlphaZero的神经网络中找到了人类国际象棋概念的证据 , 展示了网络在训练过程中获得这些概念的时间和位置 , 还发现了AlphaZero与人类不同的下棋风格 。 论文近期发表于PNAS 。
DeepMind 最新发文:AlphaZero 的黑箱打开了
文章图片
论文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.22066251191AlphaZero在训练中获得人类象棋概念AlphaZero的网络架构包含一个骨干网络残差网络(ResNet)和单独的PolicyHead、ValueHead , ResNet由一系列由网络块和跳跃连接(skipconnection)的层构成 。
在训练迭代方面 , AlphaZero从具有随机初始化参数的神经网络开始 , 反复与自身对弈 , 学习对棋子位置的评估 , 根据在此过程中生成的数据进行多次训练 。
为了确定AlphaZero网络在多大程度上表征了人类所拥有的国际象棋概念 , 这项研究使用了稀疏线性探测方法 , 将网络在训练过程中参数的变化映射为人类可理解概念的变化 。
首先将概念定义为如图1中橙色所示的用户定义函数 。 广义线性函数g作为一个探针被训练用于近似一个国际象棋概念c 。 近似值g的质量表示层(线性)对概念进行编码的程度 。 对于给定概念 , 对每个网络中所有层的训练过程中产生的网络序列重复该过程 。
DeepMind 最新发文:AlphaZero 的黑箱打开了
文章图片
图1:在AlphaZero网络(蓝色)中探索人类编码的国际象棋概念 。
比如 , 可以用一个函数来确定我方或地方是否有“主教”(?):
当然 , 还有很多比这个例子更复杂的象棋概念 , 比如对于棋子的机动性(mobility) , 可以编写一个函数来比较我方和敌方移动棋子时的得分 。
在本实验中 , 概念函数是已经预先指定的 , 封装了国际象棋这一特定领域的知识 。
接下来是对探针进行训练 。 研究人员将ChessBase数据集中10的5次方个自然出现的象棋位置作为训练集 , 从深度为d的网络激活训练一个稀疏回归探针g , 来预测给定概念c的值 。
DeepMind 最新发文:AlphaZero 的黑箱打开了】通过比较AlphaZero自学习周期中不同训练步骤的网络 , 以及每个网络中不同层的不同概念探针的分数 , 就可以提取网络学习到某个概念的时间和位置 。
最终得到每个概念的what-when-where图 , 对“被计算的概念是什么”、“该计算在网络的哪个位置发生”、“概念在网络训练的什么时间出现”这三个指标进行可视化 。 如图2 。
DeepMind 最新发文:AlphaZero 的黑箱打开了
文章图片
图2:从A到B的概念分别是“对总分的评估”、“我方被将军了吗”、“对威胁的评估”、“我方能吃掉敌方的皇后吗”、“敌方这一步棋会将死我方吗”、“对子力分数的评估”、“子力分数”、“我方有王城兵吗” 。