90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?( 二 )
以数据为中心的基础架构
以模型为中心的机器学习系统主要关注模型架构优化及其参数优化 。
文章图片
以模型为中心的ML应用程序
上图中描述的是以模型为中心的工作流适用于少数行业 , 如媒体、广告、医疗保健或制造业 。 但也可能面临如下挑战:
需要高级定制系统:不同于媒体和广告行业 , 许多企业无法使用单一的机器学习系统来检测其产品的生产故障 。 虽然媒体公司可以负担得起有一个完整的ML部门来处理优化问题 , 但需要多个ML解决方案的制造企业不能按照这样的模板进行实施;
大型数据集的重要性:在大多数情况下 , 公司没有大量数据可供使用 。 相反 , 他们经常被迫处理微小的数据集 , 如果他们的方法是以模型为中心的 , 那么这些数据集很容易产生令人失望的结果 。
吴恩达曾在他的AI演讲中解释了他如何相信以数据为中心的ML更有价值 , 并倡导社区朝着以数据为中心的方向发展 。 他曾经举了一个「钢铁缺陷检测」的例子 , 其中以模型为中心的方法未能提高模型的准确率 , 而以数据为中心的方法将准确率提高了16% 。
文章图片
以数据为中心的ML应用程序
在实施以数据为中心的架构时 , 可以将数据视为比应用程序和基础架构更耐用的基本资产 。 以数据为中心的ML使数据共享和移动变得简单 。 那么 , 在以数据为中心的机器学习到底涉及什么?在实现以数据为中心的方法时 , 我们应该考虑以下因素:
数据标签质量:当大量的图像被错误标记时 , 会出现意想不到的错误 , 因此需要提高数据标注质量;
数据增强:让有限的数据产生更多的数据 , 增加训练样本的数量以及多样性(噪声数据) , 提升模型稳健性;
特征工程:通过改变输入数据、先验知识或算法向模型添加特征 , 常被用于机器学习 , 以帮助提高预测模型的准确性;
数据版本控制:开发人员通过比较两个版本来跟踪错误并查看没有意义的内容 , 数据版本控制是维护数据中最不可或缺的步骤之一 , 它可以帮助研究者跟踪数据集的更改(添加和删除) , 版本控制使代码协作和数据集管理变得更加容易;
领域知识:在以数据为中心的方法中 , 领域知识非常有价值 。 领域专家通常可以检测到ML工程师、数据科学家和标注人员无法检测到的细微差异 , ML系统中仍然缺少涉及领域专家的内容 。 如果有额外的领域知识可用 , ML系统可能会表现得更好 。
应该优先考虑哪一个:数据数量还是数据质量?
需要强调的是 , 数据量多并不等同于数据质量好 。 当然 , 训练神经网络不能只用几张图就能完成 , 数据数量是一个方面 , 但现在的重点是质量而不是数量 。
文章图片
如上图所示 , 大多数Kaggle数据集并没有那么大 。 在以数据为中心的方法中 , 数据集的大小并不那么重要 , 并且可以使用质量较小的数据集完成更多的工作 。 不过需要注意的是 , 数据质量高且标注正确 。
文章图片
上图中是另一种标注数据的方式 , 单独或组合标注 。 例如 , 如果数据科学家1单独标注菠萝 , 而数据科学家2将其组合标注 , 则两者标注的数据不兼容 , 导致学习算法变得混乱 。 因此 , 需要将数据标签保持一致;如果需要单独标注 , 请确保所有标注都以相同的方式进行 。
- 芯片|天玑9000即将出场,骁龙8被批“破芯片”,高通不再一家独大
- 商超O2O鼻祖Instacart今年上市 能否撑起390亿美元估值
- 操作系统|曾卖90项专利给华为,放弃手机转向汽车行业,今占据全球80%市场
- 芯片|OPPO新机官宣:2月24日,全球发布,亮点“首发天玑9000”
- Python|不是哪款都值得买!两款12代酷睿游戏本点评:不用抢购必有原因
- 在2021年末|都是堆料的高端旗舰,一加10pro是哪些配置、功能点更胜一筹
- 除了华为,一个能“吃苹果”的友商都没有
- Z世代智能电视哪家强?前三名都是国货,海信为榜首
- 微信|微信最精简版来了,连朋友圈都没了
- 消费|解锁热“雪”新姿势!魔都冰雪运动好去处,在商场内感受速度与激情!