增强|关注数据而不是模型:我是如何赢得吴恩达首届 Data-centric AI 竞赛的
文章插图
文章插图
这次竞赛共有489个参赛个人和团队提交了2458个独特的数据集。仅仅通过改进数据(而不是模型架构,这是硬标准),许多参赛者能够将64.4%的基准性能提高20%以上。最佳性能组的获奖者的成绩在86.034%至86.405%之间。“最具创新力奖”和“荣誉奖”的获奖者则都采用了新颖的方法,也取得了出色的成绩。
经过角逐,Divakar Roy, Team Innotescus 和 Team Synaptic-AnN分别获得了最佳性能组的前三名。Mohammad Motamedi, Johnson Kuan 和 Team GoDataDriven 则是最具创新奖的获奖者,此外,Pierre-Louis bessecond 和 Team KAIST-AIPRLab 获得了荣誉奖。吴恩达激动万分地表示对所有参赛者感到骄傲。
那么,获奖者对赢得吴恩达首届 Data-centric AI 竞赛的心情是怎样的呢?以下是此次竞赛最佳创新奖得主之一 Johnson Kuan 发布的博文,记录了他参赛时的过程以及获奖后的感受。
博文具体内容如下:
在过去的几个月里,我有幸参加了吴恩达首届 Data-centric AI 竞赛。在此,我很高兴能和大家分享我是如何凭借“数据增强(Data Boosting)”技术获得最佳创新奖的。
这场竞赛真正的独特之处在于,与传统的 AI 竞赛不同,它严格关注如何改进数据而不是模型,从我个人的经验来看,这通常是改进人工智能系统的最佳方式。
考虑到有大量的开源机器学习模型库(包括预训练的深度学习模型),模型方面对大多数商业应用程序来说或多或少是一个已解决的问题。我们需要的是新工具和创新技术来系统地改进数据,Andrew显著地将其称为烹饪(训练模型)的高质量食材。
这篇博文的其余部分将由三个主要部分组成:
1. 大赛概述
2. 我的“数据增强”技术解决方案
3. 这项技术的动机以及如何将它推广到不同的应用程序
具体的竞赛规则链接如下:
https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6
模型架构保持固定(cut off ResNet50)并训练 100 个 epoch,同时根据验证集的准确性在 epoch 中选择模型权重。
虽然模型和训练过程是固定的,但我们可以自由改进数据集并更改训练和验证数据分割。我们还可以添加新的图像,但在训练和验证分割中提交的图像组合必须小于10K。
提交我们改进的数据集后,参与者将根据隐藏的图像测试集进行评估。
- text|《2021大数据产业年度创新技术突破》榜重磅发布丨金猿奖
- 酷睿处理器|关键数据出炉,京东比阿里差远了
- 财智干货|数智化发展任重道远,财务中台提升数据服务价值 | 大数据
- 央媒表态后,联想关键数据出炉,柳传志这回要扳回一局?
- 数据库|OPPO悄悄上新机,骁龙8核+5000mAh电池,256G仅售1599元
- 一加科技|父母用机怎么选?抛开价格不谈,最应该关注的应该是这三项配置
- 数据仓库|红米真我moto三款骁龙870手机对比:2000元以内,谁更值得买?
- 中文|爱数智慧CEO张晴晴:基于”情感“的人机交互,要从底层数据开始
- B费全场数据:2次射正打入2球,3次抢断、1次拦截
- iPhone|东芝NAS硬盘N300系列+ORICO硬盘柜=“数据保险柜”