如何应对AI可解释性危机,解释和验证更应关注哪个?( 二 )


“临床医生不知道该模型是否恰当地确定了空域混浊的存在在决定中很重要 , 心脏边界或左肺动脉的形状是否是决定因素 , 或者该模型是否依赖于与人类不相关的特征 , 例如特定的像素值或纹理 , 可能与图像采集过程有关 , 而不是潜在疾病 , ”Ghassemi、Oakden-Rayner和Beam写道 。
他们指出 , 在缺乏此类信息的情况下 , 人类倾向于假设人工智能正在研究人类临床医生会发现的重要特征 。 这种认知偏差会使医生对机器学习算法可能犯的错误视而不见 。
研究人员还发现了其他流行的可解释性方法的缺陷 , 如GradCam、LIME和ShapleyValues 。 其中一些方法通过改变输入的数据点 , 直到算法做出不同的预测 , 然后假设这些数据点对原来做的预测来说一定是最重要的 。
但这些方法与热图有同样的问题——它们可能会识别出对决策很重要的特征 , 但它们不能准确告诉医生为什么算法认为这些特征很重要 。 如果这个特征让医生觉得违反直觉 , 医生该怎么做?断定算法是错误的 , 还是断定它发现了以前医学未知的临床重要线索?任何一个都有可能 。
如何应对AI可解释性危机,解释和验证更应关注哪个?
文章图片
更糟糕的是 , 不同的最新解释方法在对算法结论的解释上经常存在分歧 。 在2月8日发表的《可解释机器学习中的分歧问题:从业者的视角》论文中 , 来自哈佛大学、麻省理工学院、卡内基梅隆大学和德雷克塞尔大学的研究人员发现 , 在现实世界中 , 大多数使用算法的人都无法解决这些差异 , 而且通常 , 正如Ghassemi等学者所建议的那样 , 他们只是简单地选择了最符合他们现有想法的解释 。
卡内基梅隆大学计算机科学教授ZacharyLipton在接受《Fortune》采访时表示 , “医疗保健领域领域每个认真的人都知道 , 当今大多数可解释的AI都是无稽之谈 。 ”Lipton表示 , 在他们的医院部署了一个据称可解释的AI系统来解释医学图像后 , 已经有许多放射科医生向他寻求帮助 , 这些图像的解释没有意义——或者至少 , 与放射科医生真正想要的东西无关 。
然而 , 公司继续将他们的AI系统推销为“可解释的” , Lipton表示 , 因为他们认为他们必须这样做才能进行销售 , “他们说 , ‘如果没有解释 , 医生不会相信它 。 ’但也许他们不应该相信它 。 ”
根据《英国医学杂志》(TheBMJ)2020年发表的一项研究 , 在最坏的情况下 , 提供解释是为了掩盖医学成像中使用的大多数深度学习算法都没有受到严格的双盲随机对照试验 , 而这些实验在新药被批准之前是必须的 。
“我们建议可解释AI的最终用户 , 包括临床医生、立法者和监管机构 , 要意识到当前存在的可解释AI的局限性 。 我们认为 , 如果希望确保人工智能系统能够安全可靠地运行 , 那么重点应该放在严格和彻底的验证程序上 。 ”Ghassemi、Oakden-Rayner和Beam得出了一个有点违反直觉的结论 , 即医生不应该专注于解释 , 而应该关注AI的作用效果 , 以及其是否经过了严格、科学的测试 。
他们指出 , 医学充满了医生使用的药物和技术 , 因为它们起作用 , 尽管没有人知道为什么——对乙酰氨基酚已被用于治疗疼痛和炎症一个世纪 , 尽管我们仍然不完全了解其潜在机制 。