港科大褚晓文:医疗场景下的 AutoML ,模型参数量更小、分类准确率更高( 三 )
褚晓文:目前 , 由于缺乏和医疗机构之间的合作 , 我们还没有在真实场景中去测试模型性能 。 但在公开数据集的实验中我们发现 , AutoML能够搜索到参数量更小而且分类准确率更高的模型 。
我们也尝试研究过联邦学习在Covid-19诊断上的应用 , 模拟在几个数据孤岛上进行联邦学习 , 结果显示 , 质量较差的数据孤岛的确能够受益于联邦学习 , 但高质量的数据孤岛却很难有性能提升 , 甚至有可能被其他数据集所拖累 。 这是一个非常有趣的课题 , 我们将来也会更加深入地去研究 。
AI科技评论:您的主要研究方向是什么?取得过哪些突出成果?
褚晓文:目前我主要的研究方向是高性能机器学习系统 。 得益于我在GPU计算和分布式计算领域的研究经验 , 我们是较早关注大规模分布式机器学习的团队之一 , 2016年研发了世界上最早开源的深度学习基准测试系统之一DLBench , 在学术界和工业界都引起较为广泛的关注 。
之后 , 我们团队又和一些企业合作研发了系列分布式训练的原创性技术 , 于2018年使用2048张GPU在ImageNet数据集上实现了图像分类任务的全球最快训练速度 。
此外还设计和实现了多种分布式机器学习训练的通信优化方法 , 在国际会议IEEEINFOCOM、IEEEICDCS和国际期刊IEEETPDS发表过多篇学术论文 , 并获得IEEEINFOCOM2021年的最佳论文奖 。
AI科技评论:您从什么时候开始使用AutoML做研究的?期间一共经历了哪几个研究阶段?
褚晓文:2018年 , 我们开始对AutoML调研 , 它最具吸引力的地方就正如其名——自动机器学习 , 这是一个非常美好的期许 , 可以把科研工作者和工程师从枯燥的调参过程中解放出来 , 去做更有意义的事 。
目前我们在AutoML方面大概经历了几个阶段:
第一 , 通过调研现有的AutoML相关技术 , 我们参考300多篇相关文献完成了一篇AutoML的综述论文 , 它是国际著名期刊Knowledge-BasedSystems近三年来引用和下载最高的论文之一 , 对AutoML的普及起到了一定的促进作用 。
第二 , 在正逢NAS研究热度高的时候 , 我们在不同的任务上验证了NAS的有效性 , 包括医学图像分类和生成对抗模型 。
在那之后我们还做了一些工作 , 尝试去更本质地认识模型结构对性能的影响 , 另外也尝试从系统设计的角度去提高AutoML的效率和可扩展性 。
AI科技评论:医学场景是您的第一选择么 , 最初面向的是哪一个医学场景或哪一种人体疾病?
褚晓文:我们团队尝试医学场景的研究始于2018年 。 当时 , 香港发生了一起由皮肤病引起的社会悲剧 , 我从媒体上了解到 , 香港的公立医疗体系内只有30多位皮肤科专科医生 , 但同一时间的轮候病人却达到5万多人 。 这个对我的触动非常大 , 也正因如此 , 我开始思考是否可以通过人工智能的方法来解决皮肤病诊断的问题 。
后面我们从互联网上搜集了很多相关的数据 , 也取得了一些初步成效 。 但受限于图片的版权问题 , 目前我们已搜集和清理的数据集无法对外公开 , 这个方面的研究也停留在学术层面 。
AI科技评论:当前医学场景对AutoML提出了怎样的要求 , 研究难点是什么?
褚晓文:由于医学数据比较敏感和隐私 , 所以通常很难拿到大量的数据集;与此同时 , 有经验的医生时间成本很高 , 这也导致高质量的数据标注工作非常困难 , 如何在有限的数据集上使用AutoML搜索到泛化性能好的模型是一个不小的挑战 。
另外 , 我们还需要避免数据隐私泄露 , 例如ModelInversionAttack能够逆向获取原始数据 , 因此 , 使用AutoML搜索出更安全的模型也是未来一个值得关注的方向 。
- iPhone14|iPhone14国行版台版港版价格比较:告诉你去哪买更便宜?
- |深港脑科学创新研究院已组建逾70个研究团队
- 3D打印|3D打印周报#30:香港首起3D打印枪支案件,联泰科技再获2亿元融资
- iPhone14|iPhone14系列全球价格对比:日版更便宜,港版不香了?
- 充电宝|科大讯飞投资成立工业互联网公司
- 港媒:中国航天员“天宫对话”非洲青少年 中非航天合作成果丰硕
- 高校|免费送月饼?中国科大发4万多封钓鱼邮件:大一新生“中招”最多
- 世界知名计算机科学家郭毅可将任香港科技大学首席副校长
- 香港|中山网站制作需要注意什么细节?网站制作有哪些流程?
- 本文转自:新闻晨报洋山四期数智平台、上海机场集团航班态势感知平台……在近日举行的“通·未...|提升航运中心能级!上海打造数字孪生港口和机场