疾病|“AI问诊就是抛硬币”!甚至漏掉67%病患( 三 )

所以我们需要想清楚到底向算法展示什么数据,才能平衡好数据的代表性和丰富性之间的关系 。
哥本哈根大学的转化性疾病系统生物学家Soren Brunak如是评价 。
除此之外,还可以请行业大佬们制定一个检查表,规范医疗AI领域的研究开发步骤 。
然后,研究人员就能更方便地搞清楚先做什么、再做什么,有条不紊地操作;还能Check一些可能遗漏的问题,比如一项研究是回顾性还是前瞻性的,数据与模型的预期用途是否匹配等等 。
其实,现有已有多种机器学习检查表,其中大部分是基于“EQUATOR Network”先提出的,这是一项旨在提高健康研究可靠性的国际倡议 。
疾病|“AI问诊就是抛硬币”!甚至漏掉67%病患
文章图片

此前,上文提到的普林斯顿的Kapoor博士,也和团队共同发表了一份包含21个问题的清单 。
他们建议,对于一个预测结果的模型,研究人员得确认训练集中的数据要早于测试集,这样可以确保两个数据集是独立的,不会有数据重叠和相互影响 。