90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?( 二 )


以数据为中心的基础架构
以模型为中心的机器学习系统主要关注模型架构优化及其参数优化 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
以模型为中心的ML应用程序
上图中描述的是以模型为中心的工作流适用于少数行业 , 如媒体、广告、医疗保健或制造业 。 但也可能面临如下挑战:
需要高级定制系统:不同于媒体和广告行业 , 许多企业无法使用单一的机器学习系统来检测其产品的生产故障 。 虽然媒体公司可以负担得起有一个完整的ML部门来处理优化问题 , 但需要多个ML解决方案的制造企业不能按照这样的模板进行实施;
大型数据集的重要性:在大多数情况下 , 公司没有大量数据可供使用 。 相反 , 他们经常被迫处理微小的数据集 , 如果他们的方法是以模型为中心的 , 那么这些数据集很容易产生令人失望的结果 。
吴恩达曾在他的AI演讲中解释了他如何相信以数据为中心的ML更有价值 , 并倡导社区朝着以数据为中心的方向发展 。 他曾经举了一个「钢铁缺陷检测」的例子 , 其中以模型为中心的方法未能提高模型的准确率 , 而以数据为中心的方法将准确率提高了16% 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
以数据为中心的ML应用程序
在实施以数据为中心的架构时 , 可以将数据视为比应用程序和基础架构更耐用的基本资产 。 以数据为中心的ML使数据共享和移动变得简单 。 那么 , 在以数据为中心的机器学习到底涉及什么?在实现以数据为中心的方法时 , 我们应该考虑以下因素:
数据标签质量:当大量的图像被错误标记时 , 会出现意想不到的错误 , 因此需要提高数据标注质量;
数据增强:让有限的数据产生更多的数据 , 增加训练样本的数量以及多样性(噪声数据) , 提升模型稳健性;
特征工程:通过改变输入数据、先验知识或算法向模型添加特征 , 常被用于机器学习 , 以帮助提高预测模型的准确性;
数据版本控制:开发人员通过比较两个版本来跟踪错误并查看没有意义的内容 , 数据版本控制是维护数据中最不可或缺的步骤之一 , 它可以帮助研究者跟踪数据集的更改(添加和删除) , 版本控制使代码协作和数据集管理变得更加容易;
领域知识:在以数据为中心的方法中 , 领域知识非常有价值 。 领域专家通常可以检测到ML工程师、数据科学家和标注人员无法检测到的细微差异 , ML系统中仍然缺少涉及领域专家的内容 。 如果有额外的领域知识可用 , ML系统可能会表现得更好 。
应该优先考虑哪一个:数据数量还是数据质量?
需要强调的是 , 数据量多并不等同于数据质量好 。 当然 , 训练神经网络不能只用几张图就能完成 , 数据数量是一个方面 , 但现在的重点是质量而不是数量 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
如上图所示 , 大多数Kaggle数据集并没有那么大 。 在以数据为中心的方法中 , 数据集的大小并不那么重要 , 并且可以使用质量较小的数据集完成更多的工作 。 不过需要注意的是 , 数据质量高且标注正确 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
上图中是另一种标注数据的方式 , 单独或组合标注 。 例如 , 如果数据科学家1单独标注菠萝 , 而数据科学家2将其组合标注 , 则两者标注的数据不兼容 , 导致学习算法变得混乱 。 因此 , 需要将数据标签保持一致;如果需要单独标注 , 请确保所有标注都以相同的方式进行 。