疾病|“AI问诊就是抛硬币”!甚至漏掉67%病患

“AI的一些医疗决策,实际上就是抛硬币 。”
哈佛医学院的数据科学家Kun-Hsing Yu语出惊人 。
他还补充道:
即便比赛中正确率达90%的获奖模型,再用原数据集子集测试时,准确度最多60-70%,可谓惨败 。这让我们很惊讶 。
上述科学家的观点来自Nature最近新发表的一篇文章 。
内容对AI在医疗领域的可重复性提出了质疑,呈现诸多医疗领域及场景中,AI自带的黑箱属性造成的隐患 。
疾病|“AI问诊就是抛硬币”!甚至漏掉67%病患
文章图片

更值得关注的是,尽管问题存在,但AI仍在医疗领域大规模推广使用 。
举例来看,数以百计的美国医院已在使用一种AI模型标记败血症早期症状,但在2021年,该模型被发现未能识别率高达67% 。
所以,AI究竟带来了哪些医疗隐患,如何解决?
继续往下看 。
疾病|“AI问诊就是抛硬币”!甚至漏掉67%病患
文章图片

△ 图源:Nature人工智能的“看病难”
我们先从哈佛医学院的数据科学家Kun-Hsing Yu发现AI“抛硬币”的始末聊起 。
在医疗领域,AI用于诊断检测人体一直质疑声不断,Kun-Hsing Yu此番研究也是希望有个直观体感 。
他选定了常见癌症之一的肺癌,每年有350万美国人因该病症去世,若能更早通过CT扫描筛查,很多人可以免于死亡 。
该领域的确备受机器学习界关注,为此,2017年业内还举办了面向肺癌筛查的竞赛 。
疾病|“AI问诊就是抛硬币”!甚至漏掉67%病患
文章图片

该活动归属于Kaggle的Data Science Bowl赛事,数据由主办方提供,涵盖1397位患者的胸部CT扫描数据 。参赛团队需开发并测试算法,最终大赛按准确率给予评奖,在官宣中,至少五个获奖模型准确度90%以上 。
但Kun-Hsing Yu又重新测试了一轮,然后震惊地发现,即便使用原比赛数据的子集,这些“获奖”模型最高准确率却下降到了60-70% 。
疾病|“AI问诊就是抛硬币”!甚至漏掉67%病患
文章图片

△ 一位参赛者分享的模型结构
上述状况并非个例 。
普林斯顿一位博士,Sayash Kapoor,在17个领域的329项研究中报告了可重复性失败和陷阱,医学名列其中 。
基于研究,这位博士及自己的教授还组织了一个研讨会,吸引了30个国家600名科研者参与 。
一位剑桥的高级研究员在现场表示,他用机器学习技术预测新冠传播流行趋势,但因不同来源的数据偏差、训练方法等问题,没有一次模型预测准确 。还有一位研究者也分享了——自己用机器学习研究心理课题,但无法复现的问题 。
在该研讨会上,还有参与者指出谷歌此前遇到的“坑” 。
他们曾在2008年就利用机器学习分析用户搜索所产生数据集,进而预测流感暴发 。谷歌为此还鼓吹一波 。
但事实上,它并未能预测2013年的流感暴发 。一家独立研究机构指出,该模型将一些流感流行无关的季节性词汇进行了关联和锁定 。2015年,谷歌停止了对外公开该趋势预测 。
Kapoor认为,就可重复性来说,AI模型背后的代码和数据集都应可用并不出错误 。那位研究新冠流行模型的剑桥ML研究者补充道,数据隐私问题、伦理问题、监管障碍也是导致可重复性出问题的病灶 。
疾病|“AI问诊就是抛硬币”!甚至漏掉67%病患