斑马识别成狗,AI犯错的原因被斯坦福找到了丨开源( 二 )
文章图片
这一步只需要对每个想要评估的模型做一次 , 之后CAV便可以用来解释任意数量的错误分类 。
给定错误分类标准我们可以通过改变不同概念在模型中的比重 , 对其分类标准进行相应的调整 , 这些调整要满足以下原则:
1、正确性:如果一个分类标准达到了预期的结果 , 那么它就被认为是正确的 。
2、有效性:分类标准不能违反人类的基本认知 。
3、稀疏性:最终目标是向用户传达模型的错误之处 , 太多的变量不利于有效传达信息 。
我们的目的是尽可能地使预测结果贴近训练结果 , 即最小化交叉熵损失 。
因此就要不断优化模型预测的标准 , 通过调整待修改的标准 , 对其进行加权 , 最终达到纠正错误分类的效果 。
了解之后 , 我们通过一个实际例子来看看 , 怎么用CCE“探测”分类模型出错的地方 。
文章图片
在这里 , 分类模型错误地将斑马图像识别为非洲猎犬 。
于是 , 我们首先生成这个模型将斑马识别成狗的一系列标准 。
然后 , 对这些标准进行评分 , 如果评分为正 , 则代表在图像中增加这个概念 , 将会提高正确分类的概率 , 反之亦然 。
在这个例子中 , 如果增加stripes(条纹)这个概念 , 识别出它为斑马的概率就会大一些 。
在c)图中 , 通过CCE分析也可以直观地看到 , “PolkaDots”(斑点)和“Dog”(狗)是导致模型预测错误的原因 。
CCE效果怎么样?看到这里 , 想必大家对CCE的原理都有了初步的认识 。
那它判断得到底准不准确 , 效果究竟如何呢?
CCE的目的 , 主要是揭示模型在训练过程中学习到的“伪相关性” , 用它就可以捕获图像中出现的其他“无关要素”和图像的伪相关性 。
测试发现 , 在大多数情况下 , 该模型在超过90%的错误分类的测试样本中识别出伪相关 。
看看这个表格 , 相较于其他方法 , 使用CCE , 识别出样本中伪相关的概率最高 。
文章图片
CCE能够精准地识别出样本中的伪相关 , 可以看这个例子:
文章图片
改变苹果图片的颜色(使图片变灰) , 分类模型识别错误的概率增大时(黑线) , CCE辨别出“绿色”为伪相关的分数也就越高(绿线) 。
除此之外 , CCE也有用在医学领域的潜力 。
像AbubakarAbid等人就使用CCE , 在皮肤病学(皮肤状况分类)、胸片图像中的心脏病学(气胸分类)中都做了相关测试 。
文章图片
CCE使用学习到的偏差和图像质量条件来解释模型犯错 , 也已被专业的皮肤科医生证实——这些因素 , 确实很大程度上是导致皮肤图像难以分类的原因 。
此外 , CCE的速度也很快 。
概念库只需要使用简单的支持向量机学习一次 , 每个测试示例在单个CPU上花费的时间小于0.3s 。
重要的是 , 它可以很简单地应用到任何深度网络 , 在不需要训练数据的情况下检测到模型犯错的原因 。
如果你对这种方法感兴趣 , 想亲自试试的话 , 可以戳下文链接查看 。
作者介绍
文章图片
JamesZou , 论文通讯作者 , 是斯坦福大学生物医学数据科学系的助理教授 , 计算机科学与电气工程系的助理教授 。
- Linux|沉寂许久的QQ被盗号送上热榜,但密码+身份证+人脸识别却找不回使用多年的QQ
- 国际足联:卡塔尔世界杯将启用半自动越位识别技术
- |无人便利店使用语音识别AI自助收银机,是噱头还是新神器?
- ZOL科技早餐:微信推出图片识别功能,苹果自研5G芯片失败
- 再次夺冠!快商通在VoxSRC 2021国际说话人识别竞赛再次荣获全球第一!
- 防伪技术|外观追溯系统精准识别 让防伪标签“绑定”商品实物
- 网易游戏|网易游戏积极保护未成年人上网安全,探索人脸识别功能
- 华为Mate50或将搭载全新麒麟处理器!还有鸿蒙3.0+3D人脸识别!
- 呼吸|新“人造鼻”用呼吸进行生物识别认证,未来或可用于解锁手机
- 网络支付|智能音箱WiFi通信技术,ESP32-S3物联网芯片,高性能语音唤醒识别应用