北交桑基韬：“超”人的机器学习，非语义特征的得与失( 三 ) 作者|桑基韬整理|维克多人工智

这种欠蒸馏可以从机器学习过拟合的角度理解，因为数据不完备，模型学习到了训练数据的局部相关性。这会导致分布外泛化问题，训练集和测试集来自不同分布时，测试性能大幅下降， “聪明的汉斯”、“坦克都市传奇”都是分布外泛化的例子。

文章图片
2017年， ICLR一篇最佳论文提出随机标签现象也可理解为欠蒸馏的体现，即随机打乱训练集样本标签，泛化gap随随机标签比例上升而增加，导致测试性能下降。这反映了深度网络甚至可以记忆训练集中的噪声信息，但这种噪声不是任务的本质特征，无法保证泛化性能。

文章图片
总结一下，欠蒸馏会导致模型学习到一些任务无关特征，即训练集强关联，但测试集无法泛化。我们尝试对任务无关特征给出更为严谨的定义，并分析它的性质。如上图，从数据生成的角度，从标签Y到样本X的生成过程中间引入一个变量G 。 G分成两部分，一部分是和任务相关的生成变量，也就是说当变量改变的时候，整个任务都会改变；另一部分是，它不会影响Y的分布，但是会影响x的呈现，例如对于生成“狗”的任务里面，模型会关注狗的位置，尺寸、光照等和任务无关的变量。这其实是对IID的放松，更符合数据集的实际分布情况。
任务无关特征除了有泛化性问题，在因果框架中，还可以看做混淆变量，同时如果这种特征带有社会属性，还可以看做偏见变量，会导致公平性问题。
前面提到过蒸馏是机器学习到了人难以感知/理解的模式，我们将其定义为非语义特征。简单来说，这种非语义特征是模型可利用的、人类难以理解的信息。值得指出的是，目前对于非语义特征尚没有统一的认识，我们正尝试结合人类视觉感知特点和信息理论建立一个严谨的、可以量化的定义。目前可以借助非语义特征的两种表现形式来理解：从内容结构角度可称为弱结构化特征，比如高频、小奇异值对应的信息都是人难以感知的；从模型知识角度即对应了Madry论文中提到的非鲁棒特征，可大致理解为攻击模型产生的对抗噪声。

文章图片
上图（左）是在亚马逊众包平台上请工人对字符验证码进行识别的例子。我们在里面加入了8种程度的对抗噪声，可以看出人类和OCR识别算法的变化：最高尺度的噪声对人类没有变化，但由于扰动了非语义信息，算法性能会下降很快。
上图（右）是加入高斯白噪声的情况。可以看到，人和算法虽然随着噪声程度的增加都有下降，但是人受影响会更大。原因可能是，当白噪声的等级增加，人类所主要依赖的语义信息就被遮盖掉了，但是模型可以同时挖掘非语义信息进行辅助判断。

文章图片
过蒸馏，其实还影响到了模型的解释性，有研究发现，对抗鲁棒模型可能依赖语义特征进行推断，因此具有更好的梯度解释性。
这两种虚假相关性扩展到可赖机器学习有哪些启示？可信赖机器学习大概对应了可信计算的应用层。它有两个核心的概念：按照预期的目标执行，按照预期的方式执行。按照预期的目标要求任务理解准确，但只通过训练数据描述的任务往往不够全面、准确；以预期的方式执行，要求执行准确，即推断过程可理解、推断结果可预测。