北交桑基韬:“超”人的机器学习,非语义特征的得与失( 四 )


北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
如上图 , 上述两个目标和两类虚假相关性有一个大致的对应关系 。 基于两类虚假相关性可以将视觉信息划分为四个象限 , 而可信赖机器学习希望模型只利用第一象限的信息:即任务相关的语义特征 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
我们提出一个可信赖机器学习框架 , 以最终让模型依赖任务相关的语义特征 。 有三步 , 第一步是传统的训练器 , 目的是在测试数据可以泛化 , 学到任务相关的特征 , 这部分特征可以满足不需要和人进行交互的系统应用场景 。 第二部分是解释器 , 目标是人可以理解 , 从任务相关特征进一步提取出面向语义的特征 , 可以同时满足和人的交互;第三部分是算法测试 , 目标是评估真实性能+诊断发现bug 。 我们注意到 , 把机器学习当成软件系统的话 , 其实缺少了软件工程里成熟的测试和调试的模块 , 引入测试模块 , 能进一步针对性地发现模型中利用的两类虚假相关特征 , 与训练器和解释器形成闭环 , 通过测试-调试共同保证机器学习算法从实验室级向工业级的可信赖应用 。 在这一框架下 , 我们对应在三个阶段探索了一些基础问题 , 并围绕视觉识别、多模态预训练、用户建模等应用场景开展了一些研究工作 , 这些工作我们整理成开源代码包供调用 , 并会集成到一个统一测试-诊断-调试平台上 , 将作为工具发布 , 以供对可信赖性有需求的算法设计、开发和使用人员使用 。
3失而复得:虚假相关性的统一和非语义特征学习根据以上的讨论 , 围绕非语义特征 , 实际存在两个矛盾 。 一是“弃之可惜 , 用之不可信” 。 非语义特征丢掉很可惜 , 但拿来用又有风险 。 有用之处在于:模型可以利用非语义特征辅助推断 , 完全移除非语义特征使模型泛化性下降 。 风险在于:使用非语义特征的模型存在对抗鲁棒性、解释性等机器学习的可信赖问题 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
第二个矛盾是:机器学习能力“超”人 , 但学习目标和方式“类”人 。 非语义特征包含了人类难以感知、机器可以利用的信息 , 而学习目标和方式是类人 , 比如深度神经网络受人类视觉系统启发 , 包括层次化网络结构、感受野逐层增加、简单细胞、复杂细胞等 。
围绕“弃之可惜 , 用之不可信”矛盾 , 以泛化性和对抗鲁棒性为例 , 它背后代表的是两类虚假相关性之间的矛盾:泛化性的提高很大程度上来自非语义特征的利用 , 而在目前训练范式下 , 限制非语义特征会影响泛化性 。
有没有可能将两类虚假相关性进行统一?我们提出一个假设 , 对抗鲁棒性问题不是因为模型利用了非语义特征 , 而是因为没有很好地利用非语义特征 , 非语义特征在提供有限泛化性贡献的同时 , 增加了被对抗攻击的风险 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
我们也从频域入手 , 暂且将高频信息大致对应非语义特征 。 如上图 , 相比中低频 , 特征提取后 , 高频分量的类间距比较小 , 对最终分类的贡献也就比较弱 。 而实际上 , 在特征提取前 , 原始图像的高频分量中存在着相当的类判别信息 。 如下图 , 原始图像不同频率的HOG特征分布情况 , 右边是高频 , 左边是中低频 。
北交桑基韬:“超”人的机器学习,非语义特征的得与失
文章图片
经过特征提取之后 , 可以明显看出:高频信息被抑制了 , 而中低频经过特征提取得到了增强 。 这告诉我们 , 高频信息对于模型泛化性的贡献是有限的 。