增强|关注数据而不是模型：我是如何赢得吴恩达首届 Data-centric AI 竞赛的( 三 )

我的方法受到以下四件事的启发：

我在原先的作品（见 2019 年的一篇博文）里构建了一个电影推荐系统，这个系统通过从关键字标签中提取电影嵌入并使用余弦相似度来查找彼此相似的电影。
【增强|关注数据而不是模型：我是如何赢得吴恩达首届 Data-centric AI 竞赛的】我之前使用过预训练的深度学习模型将图像表示为嵌入。
在 Andrej Karpathy 2019 年的演讲中，他描述了如何有效地获取和标记从特斯拉车队收集的大量数据，以解决通常是边缘情况（分布的长尾）的不准确问题。
我想开发一种以数据为中心的增强算法（类似于梯度增强），其中模型预测中的不准确之处在每个步骤中通过自动获取与那些不准确之处相似的数据来迭代解决。这就是我称这种方法为“数据提升”的原因。

2019年的博文链接：
https://towardsdatascience.com/how-to-build-a-simple-movie-recommender-system-with-tags-b9ab5cb3b616
Andrej Karpathy 2019 年的演讲：
https://www.youtube.com/watch?v=FnFksQo-yEY&t;=1316s
当我最初考虑这种“数据增强”的方法时，我需要弄清楚如何自动生成大量新的候选图像作为来源。我决定尝试随机增强原始训练数据，以生成大量增强图像作为候选来源。
下一步，我利用预训练模型提取图像嵌入，用于计算图像之间的余弦相似度，从而自动获取与验证集中错误分类图像相似的增强图像。
在这里，使用预训练模型进行一般特征提取是一种迁移学习方法。我假设通过以这种方式获取增强图像，我们可以提高模型从分布的长尾学习模式的机会。正如Andrej Karpathy在2019年特斯拉“自主日”（Tesla’s Autonomy Day）的演讲中所指出的那样：
'这都是关于长尾'

增强|关注数据而不是模型：我是如何赢得吴恩达首届 Data-centric AI 竞赛的

文章插图

此外，由于竞赛的数据大小限制为 10K 的图像，这种“数据增强”方法是一种确定在给定的约束条件下哪些随机增强图像最好包含在训练集中的方法。
我可以看到这种技术推广到我们可以访问的机器学习的不同应用程序中：

为实体（例如图像、文本文档）提取嵌入的预训练模型
可供选择的大量候选数据集（例如特斯拉车队、网络上大量的文本语料库、合成数据）

例如，我可以想象将这种技术推广到文本分类中，我们使用预训练的 Transformer 模型（比如 Bert）来提取文本的嵌入。然后，我们可以从我们的特定域的验证集中获取与不准确性类似的文本（假设有一个大型的在线语料库）。

结语

我希望这篇博文能说服你加入这场以数据为中心的 AI 运动。在更广泛地应用人工智能方面，还有许多令人兴奋的工作要做。我相信，对人工智能系统数据管理的共同关注将使我们实现这一目标。
如果你有任何问题或希望合作，请随时与我们联系。你可以在 LinkedIn 或 Twitter 上找到我。
最后，特别感谢传奇人物吴恩达发起本次竞赛。
原文链接：
https://towardsdatascience.com/how-i-won-andrew-ngs-very-first-data-centric-ai-competition-e02001268bda

文章插图

雷锋网