港科大褚晓文：医疗场景下的 AutoML ，模型参数量更小、分类准确率更高( 三 ) 探索AI和医学结合更多的可能性

褚晓文：目前，由于缺乏和医疗机构之间的合作，我们还没有在真实场景中去测试模型性能。但在公开数据集的实验中我们发现， AutoML能够搜索到参数量更小而且分类准确率更高的模型。
我们也尝试研究过联邦学习在Covid-19诊断上的应用，模拟在几个数据孤岛上进行联邦学习，结果显示，质量较差的数据孤岛的确能够受益于联邦学习，但高质量的数据孤岛却很难有性能提升，甚至有可能被其他数据集所拖累。这是一个非常有趣的课题，我们将来也会更加深入地去研究。
AI科技评论：您的主要研究方向是什么？取得过哪些突出成果？
褚晓文：目前我主要的研究方向是高性能机器学习系统。得益于我在GPU计算和分布式计算领域的研究经验，我们是较早关注大规模分布式机器学习的团队之一， 2016年研发了世界上最早开源的深度学习基准测试系统之一DLBench ，在学术界和工业界都引起较为广泛的关注。
之后，我们团队又和一些企业合作研发了系列分布式训练的原创性技术，于2018年使用2048张GPU在ImageNet数据集上实现了图像分类任务的全球最快训练速度。
此外还设计和实现了多种分布式机器学习训练的通信优化方法，在国际会议IEEEINFOCOM、IEEEICDCS和国际期刊IEEETPDS发表过多篇学术论文，并获得IEEEINFOCOM2021年的最佳论文奖。
AI科技评论：您从什么时候开始使用AutoML做研究的？期间一共经历了哪几个研究阶段？
褚晓文：2018年，我们开始对AutoML调研，它最具吸引力的地方就正如其名——自动机器学习，这是一个非常美好的期许，可以把科研工作者和工程师从枯燥的调参过程中解放出来，去做更有意义的事。
目前我们在AutoML方面大概经历了几个阶段：
第一，通过调研现有的AutoML相关技术，我们参考300多篇相关文献完成了一篇AutoML的综述论文，它是国际著名期刊Knowledge-BasedSystems近三年来引用和下载最高的论文之一，对AutoML的普及起到了一定的促进作用。
第二，在正逢NAS研究热度高的时候，我们在不同的任务上验证了NAS的有效性，包括医学图像分类和生成对抗模型。
在那之后我们还做了一些工作，尝试去更本质地认识模型结构对性能的影响，另外也尝试从系统设计的角度去提高AutoML的效率和可扩展性。
AI科技评论：医学场景是您的第一选择么，最初面向的是哪一个医学场景或哪一种人体疾病？
褚晓文：我们团队尝试医学场景的研究始于2018年。当时，香港发生了一起由皮肤病引起的社会悲剧，我从媒体上了解到，香港的公立医疗体系内只有30多位皮肤科专科医生，但同一时间的轮候病人却达到5万多人。这个对我的触动非常大，也正因如此，我开始思考是否可以通过人工智能的方法来解决皮肤病诊断的问题。
后面我们从互联网上搜集了很多相关的数据，也取得了一些初步成效。但受限于图片的版权问题，目前我们已搜集和清理的数据集无法对外公开，这个方面的研究也停留在学术层面。
AI科技评论：当前医学场景对AutoML提出了怎样的要求，研究难点是什么？
褚晓文：由于医学数据比较敏感和隐私，所以通常很难拿到大量的数据集；与此同时，有经验的医生时间成本很高，这也导致高质量的数据标注工作非常困难，如何在有限的数据集上使用AutoML搜索到泛化性能好的模型是一个不小的挑战。
另外，我们还需要避免数据隐私泄露，例如ModelInversionAttack能够逆向获取原始数据，因此，使用AutoML搜索出更安全的模型也是未来一个值得关注的方向。