北交桑基韬:“超”人的机器学习,非语义特征的得与失( 五 )


北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
但是和对抗鲁棒性有很强的关联性 。 如上图中间是无目标对抗攻击过程的动图 , 可以看出对抗攻击有一个阶段明显沿高频分量的分布方向移动 , 换句话说 , 高频分量很可能引导了对抗攻击在特征空间的行为 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
这里我们有一个初步的假设 , 对抗攻击过程可能分为两个阶段:第一阶段 , 它会寻找正交于数据流形的决策边界 , 并跨过类决策边界;在第二个阶段对抗攻击继续向目标类中心集中 。 我们最近发现这个假设和两个阶段互信息的变化有很强的一致性 , 后续有进一步的结果 , 我们会专门进行介绍 。 从这个角度来看 , 高频信息代表的非语义特征 , 在模型训练过程中并没有得到重视 , 非语义特征不是天然容易被攻击 , 只是它没有被学习得很好 , 导致了对抗攻击有机可乘 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
围绕“能力超人 , 学习类人”矛盾 , 对于非语义特征的学习和提取 , 可能要区别对待单独设计 。 这里以受人类视觉处理系统的层次化网络设计为例 。 今天的CNN设计 , 尝试借鉴逐层的网络结构 , 包括感受野逐层变化 。 如上图可视化的呈现 , 相比中低频特征 , 高频特征逐层差异小、感受野相对固定几乎是全局的 。 我们初步的实验发现 , 浅层、大卷积核更有利于高频特征学习 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
北交桑基韬:“超”人的机器学习,非语义特征的得与失】最后 , 人类为什么会聚焦语义信息 , 而忽略非语义信息?我们“猜测”是进化的低成本目标所致 。 一个是学习代价小:人类的学习首先通过群体大数据积累形成结构先验 , 然后个体小样本迁移 , 从而能够举一反三 。 上图的实验中我们发现高频特征的学习需要消耗较多的样本 , 在典型的小样本学习设置下 , 模型无法实现良好拟合 。 另一个是推断代价小:完成一个任务所需要调用的神经元尽可能少 , 然而我们发现高频神经元总激活消耗大且不同高频神经元激活的差异大造成利用率低 。 高频特征处理的这些特点都和生物神经系统的低成本进化方向是相违背的 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
我们知道AlphaGo的能量消耗相当于一个人的5万倍 , 如果我们抛开对于低成本的约束 , 对于非语义特征的学习和提取似乎也应该突破“类人”的约束 。 这启发我们根据所处理信息的特点 , 重新设计模型结构;参考其他生物神经系统 , 启发设计模型结构等 。 如果我们认可非语义特征的存在 , 机器学习关于数据集、模型结构、损失函数、优化方法等的先验假设是否都存在着新的理解和可能?同时 , 如何平衡类人和超人以避免非语义特征在现阶段带来的不可信赖风险?如果是需要人理解/交互的任务 , 我们希望是“类人”方式 , 定义好边界;如果是需要新知识发现的任务 , 就可以允许“超人” , 大胆探索人所不能 。 当然 , 也有可能 , 对于非语义特征 , 只是目前不可理解 , 希望通过更多人投入相关研究 , 我们理解了背后的原理和机制后 , 不仅能可靠地利用这些信息设计机器学习算法和系统 , 更能拓展和提高我们自己的认知 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片