增强|关注数据而不是模型:我是如何赢得吴恩达首届 Data-centric AI 竞赛的

增强|关注数据而不是模型:我是如何赢得吴恩达首届 Data-centric AI 竞赛的
文章插图

如何凭借“数据增强”技术获得吴恩达首届 Data-centric AI 竞赛的最佳创新奖?
作者 | 杏花
编辑 | 青暮
吴恩达(英文名 Andrew Ng,是人工智能和机器学习领域国际上最权威的学者之一)在今年 6 月的时候宣布首届以数据为中心的人工智能(Data-centric AI)竞赛即将开赛,参赛“作品”的提交日期截止到9月初。10月初,吴恩达在其个人社交平台Twitter上向我们宣布了此次竞赛的获奖者,随后,也在其个人微信公众号上向我们简要介绍了竞赛的参与情况。
增强|关注数据而不是模型:我是如何赢得吴恩达首届 Data-centric AI 竞赛的
文章插图

这次竞赛共有489个参赛个人和团队提交了2458个独特的数据集。仅仅通过改进数据(而不是模型架构,这是硬标准),许多参赛者能够将64.4%的基准性能提高20%以上。最佳性能组的获奖者的成绩在86.034%至86.405%之间。“最具创新力奖”和“荣誉奖”的获奖者则都采用了新颖的方法,也取得了出色的成绩。
经过角逐,Divakar Roy, Team Innotescus 和 Team Synaptic-AnN分别获得了最佳性能组的前三名。Mohammad Motamedi, Johnson Kuan 和 Team GoDataDriven 则是最具创新奖的获奖者,此外,Pierre-Louis bessecond 和 Team KAIST-AIPRLab 获得了荣誉奖。吴恩达激动万分地表示对所有参赛者感到骄傲。
那么,获奖者对赢得吴恩达首届 Data-centric AI 竞赛的心情是怎样的呢?以下是此次竞赛最佳创新奖得主之一 Johnson Kuan 发布的博文,记录了他参赛时的过程以及获奖后的感受。
博文具体内容如下:
在过去的几个月里,我有幸参加了吴恩达首届 Data-centric AI 竞赛。在此,我很高兴能和大家分享我是如何凭借“数据增强(Data Boosting)”技术获得最佳创新奖的。
这场竞赛真正的独特之处在于,与传统的 AI 竞赛不同,它严格关注如何改进数据而不是模型,从我个人的经验来看,这通常是改进人工智能系统的最佳方式。
考虑到有大量的开源机器学习模型库(包括预训练的深度学习模型),模型方面对大多数商业应用程序来说或多或少是一个已解决的问题。我们需要的是新工具和创新技术来系统地改进数据,Andrew显著地将其称为烹饪(训练模型)的高质量食材。
这篇博文的其余部分将由三个主要部分组成:
1. 大赛概述
2. 我的“数据增强”技术解决方案
3. 这项技术的动机以及如何将它推广到不同的应用程序

1

大赛概述
在本次竞赛中,每个参与者手里有大小约为 3K 的图像,这些图像是从 1 到 10 的手写罗马数字,我们的任务是优化模型在罗马数字分类方面的性能。此外,我们还获得了一本包含 52 张图像的标签簿,作为我们自己实验的小测试集,本标签簿不用于最终评估。
具体的竞赛规则链接如下:
https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6
模型架构保持固定(cut off ResNet50)并训练 100 个 epoch,同时根据验证集的准确性在 epoch 中选择模型权重。
虽然模型和训练过程是固定的,但我们可以自由改进数据集并更改训练和验证数据分割。我们还可以添加新的图像,但在训练和验证分割中提交的图像组合必须小于10K。
提交我们改进的数据集后,参与者将根据隐藏的图像测试集进行评估。
增强|关注数据而不是模型:我是如何赢得吴恩达首届 Data-centric AI 竞赛的