增强|关注数据而不是模型:我是如何赢得吴恩达首届 Data-centric AI 竞赛的( 三 )
我的方法受到以下四件事的启发:
- 我在原先的作品(见 2019 年的一篇博文)里构建了一个电影推荐系统,这个系统通过从关键字标签中提取电影嵌入并使用余弦相似度来查找彼此相似的电影。
- 【 增强|关注数据而不是模型:我是如何赢得吴恩达首届 Data-centric AI 竞赛的】我之前使用过预训练的深度学习模型将图像表示为嵌入。
- 在 Andrej Karpathy 2019 年的演讲中,他描述了如何有效地获取和标记从特斯拉车队收集的大量数据,以解决通常是边缘情况(分布的长尾)的不准确问题。
- 我想开发一种以数据为中心的增强算法(类似于梯度增强),其中模型预测中的不准确之处在每个步骤中通过自动获取与那些不准确之处相似的数据来迭代解决。这就是我称这种方法为“数据提升”的原因。
https://towardsdatascience.com/how-to-build-a-simple-movie-recommender-system-with-tags-b9ab5cb3b616
Andrej Karpathy 2019 年的演讲:
https://www.youtube.com/watch?v=FnFksQo-yEY&t;=1316s
当我最初考虑这种“数据增强”的方法时,我需要弄清楚如何自动生成大量新的候选图像作为来源。我决定尝试随机增强原始训练数据,以生成大量增强图像作为候选来源。
下一步,我利用预训练模型提取图像嵌入,用于计算图像之间的余弦相似度,从而自动获取与验证集中错误分类图像相似的增强图像。
在这里,使用预训练模型进行一般特征提取是一种迁移学习方法。我假设通过以这种方式获取增强图像,我们可以提高模型从分布的长尾学习模式的机会。正如Andrej Karpathy在2019年特斯拉“自主日”(Tesla’s Autonomy Day)的演讲中所指出的那样:
'这都是关于长尾'
文章插图
此外,由于竞赛的数据大小限制为 10K 的图像,这种“数据增强”方法是一种确定在给定的约束条件下哪些随机增强图像最好包含在训练集中的方法。
我可以看到这种技术推广到我们可以访问的机器学习的不同应用程序中:
- 为实体(例如图像、文本文档)提取嵌入的预训练模型
- 可供选择的大量候选数据集(例如特斯拉车队、网络上大量的文本语料库、合成数据)
如果你有任何问题或希望合作,请随时与我们联系。你可以在 LinkedIn 或 Twitter 上找到我。
最后,特别感谢传奇人物吴恩达发起本次竞赛。
原文链接:
https://towardsdatascience.com/how-i-won-andrew-ngs-very-first-data-centric-ai-competition-e02001268bda
文章插图
雷锋网
- text|《2021大数据产业年度创新技术突破》榜重磅发布丨金猿奖
- 酷睿处理器|关键数据出炉,京东比阿里差远了
- 财智干货|数智化发展任重道远,财务中台提升数据服务价值 | 大数据
- 央媒表态后,联想关键数据出炉,柳传志这回要扳回一局?
- 数据库|OPPO悄悄上新机,骁龙8核+5000mAh电池,256G仅售1599元
- 一加科技|父母用机怎么选?抛开价格不谈,最应该关注的应该是这三项配置
- 数据仓库|红米真我moto三款骁龙870手机对比:2000元以内,谁更值得买?
- 中文|爱数智慧CEO张晴晴:基于”情感“的人机交互,要从底层数据开始
- B费全场数据:2次射正打入2球,3次抢断、1次拦截
- iPhone|东芝NAS硬盘N300系列+ORICO硬盘柜=“数据保险柜”