北交桑基韬:“超”人的机器学习,非语义特征的得与失( 二 )
文章图片
1.对抗噪声可以作为目标类特征 。 如上图 , 是一张干净的小狗图片 , 通过加入“代表猫(特征)”的对抗噪声 , 让AI将其识别成猫 。 基于这些对抗攻击污染后的对抗样本训练的猫分类器在识别干净猫图像的任务中 , 却有不错的泛化 。 这就是利用对抗噪声训练的目标类分类器可以较好地泛化于真实的目标类样本 。
2.非鲁棒特征对模型泛化性有贡献 。 把图像分成两类特征 , 一类是人可以理解 , 称为鲁棒特征 , 另一类是噪声 , 称为非鲁棒特征 。 当把图像非鲁棒特征去掉时 , 只利用这一部分特征去进行训练时候 , 会发现模型在样本上的准确性、泛化性是下降的 。 因此 , 可以得出结论非鲁棒特征对模型泛化性有贡献 , 有些信息人类不易理解但可以辅助模型推断 。
文章图片
除了对抗噪声能够体现人与AI算法的不同 , 是否关注物体的形状和纹理也是区别之一 。 如上图 , 在处理一个8*8拼图的图片时 , 人类很难识别出物体本来的面目;如果是4*4 , 我们勉强能看出边缘 。 因此 , 人在判断物体的时候 , 其实是需要借助形状信息 。 但是对于CNN模型 , 当形状信息缺失的时候 , 完全可以根据纹理进行准确的判断 。
文章图片
同时 , 该现象在频域里也有表现 。 如上图 , 高频重建的图像人眼几乎无法识别 , 模型却能准确预测类别 。 这篇论文中指出:数据包含两类信息 , 一类是语义信息 , 一类是以高频为代表的非语义信息 。
在这两类信息里 , 人只能利用语义信息进行判断 , 模型同时可以利用这两部分信息 。 这篇论文和Madry团队论文中的观点引发了激烈的讨论:这部分信息是过拟合的噪声 , 还是真实任务的特征?我更倾向于后者 , 下面提供几个证据 。
1.对抗样本的迁移性 , 其实就说明了非语义特征可以跨模型、跨数据集 。 换句话说 , 它不是针对模型和数据集过拟合的 。
2.非哺乳动物的四色视觉 , 也表明一种视觉的信息对于某些物种 , 可能是不可见、不可感知的 , 但是对于其他物种是可感知的 , 而且是非常重要的 。 例如紫外光谱人不可感知 , 但鸟类可以看见 , 其中包含了鸟类求偶的真实特征 。
3.AlphaFold:蛋白质折叠中的非语义特征 。 学者发现 , 折叠配置依赖于分布于整个多肽链的交互指纹 , 而交互指纹由于其全局分布性 , 结构非常复杂 , 人难以用规则进行定义 。 但其对于预测是有效的 。 因此 , 交互指纹这种非语义特征 , 显然对于蛋白质折叠的任务是有益的 。
以上这些非语义特征的存在 , 也是当前很多机器学习任务超过人类的一个原因 。
2失:两类虚假相关性和可信赖机器学习从另外角度看 , 这种非语义特征有哪些问题?从一种假设说起:“把机器学习看成对人的知识蒸馏” 。 这一假设可以用监督学习进行理解 , 监督学习要求“人去打标签” , 然后模型会基于标签去学习从样本到标签的映射 。 在无监督和自监督任务中 , 其实也是人为去设定目标和学习机制 。 换句话说 , 机器学习其实不管是目标 , 还是学习方式 , 都是类人的 , 是对人的知识蒸馏 。
但这种知识蒸馏有时会出现两种情况:学的不够好 , 称为虚假相关性-1(欠蒸馏);学的太好了 , 称之为虚假相关性-2(过蒸馏) 。
其中 , 虚假的相关性是指统计机器学习基于训练数据中存在的相关性学习特征构建模型 , 其中某些相关性特征在系统和人使用过程中会出现错误 。
- 半导体|国产半导体一直在韬光养晦
- 中小企业|北交所扬帆起航,给创业公司一份IPO理性规划指南
- 中小企业|投资派丨申万宏源刘靖:构建多层次资本市场,北交所应运而生
- 配音|300亿!80后北交大博士做出一只独角兽
- 芯片|300亿!80后北交大博士做出一只独角兽
- 克莱特|北交所发布2022年第3次审议会议公告,克莱特将于1月28日上会
- 北交所|徐明:创新型中小企业不仅包括“专精特新”类型企业
- 读创/深圳商报记者 范宏韬12月31日|深圳诞生全国首款开放式真无线耳机
- 北交所|今年结束了,我还在VC/PE圈
- 耐克|英特尔冒头,也许这是中国第二阶段"韬光养晦"的机会