单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺( 二 )
文章图片
回顾性研究与前瞻性研究
为此 , DeborahRaji希望研究可以更加转向“有效性”(validity)这一概念 。 有效性是统计中测度论(measurementtheory)中的重要概念 , 用以衡量系统的可信赖性 。 有效性又包含内部有效性(internalvalidity)和构建有效性(constructvalidity) 。 当讨论泛化性的时候 , 我们更关注于外部有效性(externalvalidity) 。
3外部有效性外部有效性衡量模型如何泛化到其它场景、设定 。 这些测试的设定往往不是实验原有的环境 , 并且考虑到不仅仅是数据方面的变化 。
DeborahRaji以一篇文章为例 , 这篇发表在JAMA的 , 名为“在住院患者中广泛使用的败血症预测模型的外部有效性分析”对于开头中的那个例子中的模型做了更加详尽的“外部有效性”分析 。
文章图片
外部有效性分析模型的论文网址:https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307
首先这篇文章描述了一项关于2018年12月至2019年10月期间(尤其是在大流行开始之前)使用败血症模型的回顾性研究 。 他们检查了接受38,455次住院治疗的27,697名患者 , 发现Epic模型预测败血症发病的曲线下面积为0.63 , 而“这比其开发人员报告的性能要差得多” 。
此外 , 该工具“未识别出1,709名败血症患者(67%) , 因此造成了很大的虚假报警 。 ”
这些研究人员正确地将这些问题描述为“外部有效性”问题 , 并详细研究了它们 , 这远远超出了“临床医生和数据集偏移”——一个静态的偏移数据集中描述的数据分布偏移 。
对于Epic系统的评估是基于2013年至2015年3个美国卫生系统的数据 , 这与密歇根大学2018-2019年的患者记录数据不同 。 但该评估不仅仅考虑数据问题 , 还评估了医生与模型交互的变化以及这些变化如何影响结果 , 以及其他与数据几乎没有关系的外部有效性因素——这远超过了数据分布偏移 。
即使在讨论实质性的数据更改时 , 研究者们也会试图具体描述它是什么 , 并具体分析在他们医院部署时发生的差异 。
4关于作者
文章图片
作者DeborahRaji是尼日利亚裔加拿大计算机科学家和活动家 , 她致力于研究算法偏见、人工智能问责制和算法审计 。 她曾与Google的EthicalAI团队合作 , 并曾在纽约大学AI和AINow研究所的合作伙伴关系中担任研究员 , 致力于研究如何在机器学习工程实践中考虑道德因素 , 曾于AI公正性研究的TimnitGebru做过同事 , 也曾获得过该领域多个奖项 。
DeborahRaji与BenRecht已经在这个外部有效性这一话题上已经展开了很多深入的讨论 , 后续关于这一问题的探讨也会陆续放在argmin的博客上 , 感兴趣的读者可以关注查看~
参考博客:https://www.argmin.net/2022/03/31/external-evaluations/http://www.argmin.net/2022/03/15/external-validity/
文章图片
【单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺】雷峰网
- AMD|终于超5GHz!AMD Zen4锐龙7000细节官宣:单核飞跃15%
- (图片来源:高通官方)当2013年|三星转单至台积电,但面临手机市场放缓危机
- 知名分析师郭明錤近日在社交媒体上表示|5G芯片再遭大砍:联发科砍单35% 旧款还会降价大甩卖
- 在哪里上网最容易脱单?
- 芯片|5G芯片再遭大砍:联发科砍单35% 旧款还会降价大甩卖
- 5G|超70亿大单!英国运营商就华为5G做出决定!美媒:华为赢了!
- AMD|5nm Zen4来了!AMD新锐龙7000完全偷跑:集成GPU、单核性能大写的YES
- 物联网|数码爱好者618好物清单:3款产品都不算贵,可提升生活幸福感
- 电子商务|618候选名单的五款机型,兼具颜值性能,让你花小钱办大事
- 华为|英国运营商终于认可中国通信设备的优势,交给华为70亿元订单