港科大褚晓文:医疗场景下的 AutoML ,模型参数量更小、分类准确率更高( 三 )


褚晓文:目前 , 由于缺乏和医疗机构之间的合作 , 我们还没有在真实场景中去测试模型性能 。 但在公开数据集的实验中我们发现 , AutoML能够搜索到参数量更小而且分类准确率更高的模型 。
我们也尝试研究过联邦学习在Covid-19诊断上的应用 , 模拟在几个数据孤岛上进行联邦学习 , 结果显示 , 质量较差的数据孤岛的确能够受益于联邦学习 , 但高质量的数据孤岛却很难有性能提升 , 甚至有可能被其他数据集所拖累 。 这是一个非常有趣的课题 , 我们将来也会更加深入地去研究 。
AI科技评论:您的主要研究方向是什么?取得过哪些突出成果?
褚晓文:目前我主要的研究方向是高性能机器学习系统 。 得益于我在GPU计算和分布式计算领域的研究经验 , 我们是较早关注大规模分布式机器学习的团队之一 , 2016年研发了世界上最早开源的深度学习基准测试系统之一DLBench , 在学术界和工业界都引起较为广泛的关注 。
之后 , 我们团队又和一些企业合作研发了系列分布式训练的原创性技术 , 于2018年使用2048张GPU在ImageNet数据集上实现了图像分类任务的全球最快训练速度 。
此外还设计和实现了多种分布式机器学习训练的通信优化方法 , 在国际会议IEEEINFOCOM、IEEEICDCS和国际期刊IEEETPDS发表过多篇学术论文 , 并获得IEEEINFOCOM2021年的最佳论文奖 。
AI科技评论:您从什么时候开始使用AutoML做研究的?期间一共经历了哪几个研究阶段?
褚晓文:2018年 , 我们开始对AutoML调研 , 它最具吸引力的地方就正如其名——自动机器学习 , 这是一个非常美好的期许 , 可以把科研工作者和工程师从枯燥的调参过程中解放出来 , 去做更有意义的事 。
目前我们在AutoML方面大概经历了几个阶段:
第一 , 通过调研现有的AutoML相关技术 , 我们参考300多篇相关文献完成了一篇AutoML的综述论文 , 它是国际著名期刊Knowledge-BasedSystems近三年来引用和下载最高的论文之一 , 对AutoML的普及起到了一定的促进作用 。
第二 , 在正逢NAS研究热度高的时候 , 我们在不同的任务上验证了NAS的有效性 , 包括医学图像分类和生成对抗模型 。
在那之后我们还做了一些工作 , 尝试去更本质地认识模型结构对性能的影响 , 另外也尝试从系统设计的角度去提高AutoML的效率和可扩展性 。
AI科技评论:医学场景是您的第一选择么 , 最初面向的是哪一个医学场景或哪一种人体疾病?
褚晓文:我们团队尝试医学场景的研究始于2018年 。 当时 , 香港发生了一起由皮肤病引起的社会悲剧 , 我从媒体上了解到 , 香港的公立医疗体系内只有30多位皮肤科专科医生 , 但同一时间的轮候病人却达到5万多人 。 这个对我的触动非常大 , 也正因如此 , 我开始思考是否可以通过人工智能的方法来解决皮肤病诊断的问题 。
后面我们从互联网上搜集了很多相关的数据 , 也取得了一些初步成效 。 但受限于图片的版权问题 , 目前我们已搜集和清理的数据集无法对外公开 , 这个方面的研究也停留在学术层面 。
AI科技评论:当前医学场景对AutoML提出了怎样的要求 , 研究难点是什么?
褚晓文:由于医学数据比较敏感和隐私 , 所以通常很难拿到大量的数据集;与此同时 , 有经验的医生时间成本很高 , 这也导致高质量的数据标注工作非常困难 , 如何在有限的数据集上使用AutoML搜索到泛化性能好的模型是一个不小的挑战 。
另外 , 我们还需要避免数据隐私泄露 , 例如ModelInversionAttack能够逆向获取原始数据 , 因此 , 使用AutoML搜索出更安全的模型也是未来一个值得关注的方向 。