增强|关注数据而不是模型：我是如何赢得吴恩达首届 Data-centric AI 竞赛的

文章插图

如何凭借“数据增强”技术获得吴恩达首届 Data-centric AI 竞赛的最佳创新奖？

作者 | 杏花

编辑 | 青暮

吴恩达（英文名 Andrew Ng，是人工智能和机器学习领域国际上最权威的学者之一）在今年 6 月的时候宣布首届以数据为中心的人工智能（Data-centric AI）竞赛即将开赛，参赛“作品”的提交日期截止到9月初。10月初，吴恩达在其个人社交平台Twitter上向我们宣布了此次竞赛的获奖者，随后，也在其个人微信公众号上向我们简要介绍了竞赛的参与情况。

增强|关注数据而不是模型：我是如何赢得吴恩达首届 Data-centric AI 竞赛的

文章插图

这次竞赛共有489个参赛个人和团队提交了2458个独特的数据集。仅仅通过改进数据（而不是模型架构，这是硬标准），许多参赛者能够将64.4%的基准性能提高20%以上。最佳性能组的获奖者的成绩在86.034%至86.405%之间。“最具创新力奖”和“荣誉奖”的获奖者则都采用了新颖的方法，也取得了出色的成绩。
经过角逐，Divakar Roy, Team Innotescus 和 Team Synaptic-AnN分别获得了最佳性能组的前三名。Mohammad Motamedi, Johnson Kuan 和 Team GoDataDriven 则是最具创新奖的获奖者，此外，Pierre-Louis bessecond 和 Team KAIST-AIPRLab 获得了荣誉奖。吴恩达激动万分地表示对所有参赛者感到骄傲。
那么，获奖者对赢得吴恩达首届 Data-centric AI 竞赛的心情是怎样的呢？以下是此次竞赛最佳创新奖得主之一 Johnson Kuan 发布的博文，记录了他参赛时的过程以及获奖后的感受。
博文具体内容如下：
在过去的几个月里，我有幸参加了吴恩达首届 Data-centric AI 竞赛。在此，我很高兴能和大家分享我是如何凭借“数据增强（Data Boosting）”技术获得最佳创新奖的。
这场竞赛真正的独特之处在于，与传统的 AI 竞赛不同，它严格关注如何改进数据而不是模型，从我个人的经验来看，这通常是改进人工智能系统的最佳方式。
考虑到有大量的开源机器学习模型库（包括预训练的深度学习模型），模型方面对大多数商业应用程序来说或多或少是一个已解决的问题。我们需要的是新工具和创新技术来系统地改进数据，Andrew显著地将其称为烹饪（训练模型）的高质量食材。
这篇博文的其余部分将由三个主要部分组成：
1. 大赛概述
2. 我的“数据增强”技术解决方案
3. 这项技术的动机以及如何将它推广到不同的应用程序

大赛概述

在本次竞赛中，每个参与者手里有大小约为 3K 的图像，这些图像是从 1 到 10 的手写罗马数字，我们的任务是优化模型在罗马数字分类方面的性能。此外，我们还获得了一本包含 52 张图像的标签簿，作为我们自己实验的小测试集，本标签簿不用于最终评估。
具体的竞赛规则链接如下：
https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6
模型架构保持固定（cut off ResNet50）并训练 100 个 epoch，同时根据验证集的准确性在 epoch 中选择模型权重。
虽然模型和训练过程是固定的，但我们可以自由改进数据集并更改训练和验证数据分割。我们还可以添加新的图像，但在训练和验证分割中提交的图像组合必须小于10K。
提交我们改进的数据集后，参与者将根据隐藏的图像测试集进行评估。