90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?

选自neptune.ai
作者:HarshilPatel
机器之心编译
在机器学习领域 , 数据重要还是模型重要?这是一个很难回答的问题 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?】模型和数据是AI系统的基础 , 这两个组件在模型的开发中扮演着重要的角色 。
人工智能领域最权威的学者之一吴恩达曾提出「80%的数据+20%的模型=更好的机器学习」 , 他认为一个团队研究80%的工作应该放在数据准备上 , 数据质量是重要的 , 但很少有人在乎 。 如果更多地强调以数据为中心而不是以模型为中心 , 机器学习会发展的更快 。
我们不禁会问 , 机器学习的进步是模型带来的还是数据带来的 , 目前还没有一个明确的答案 。
在本文中 , Android开发者和机器学习爱好者HarshilPatel介绍了「机器学习:以数据为中心VS以模型为中心」 , 通过对比以确定两者中哪个更重要 , 此外 , Patel还介绍了如何使用以数据为中心的基础设施 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
以数据为中心的方法VS以模型为中心的方法
以模型为中心的方法意味着需要通过实验来提高机器学习模型性能 , 这涉及模型架构的选择、训练过程 。 而在以模型为中心的方法中 , 你需要保持数据相同 , 通过改进代码和模型架构来提高性能 。 此外 , 对代码的改进是以模型为中心的根本目标 。
目前 , 大多数AI应用都是以模型为中心的 , 其中一个可能的原因是学术研究非常重视AI领域 。 根据吴恩达的说法 , AI领域90%以上的研究论文都是以模型为中心的 , 因为我们很难创建大型数据集 , 使其成为公认的标准 。 因此 , AI社区认为以模型为中心的机器学习更有前景 。 研究者在专注于模型的同时 , 往往会忽略数据的重要性 。
对于研究者而言 , 数据是每个决策过程的核心 , 以数据为中心的公司通过使用其运营产生的信息 , 可以获得更准确、更有条理、更透明的结果 , 从而可以帮助公司组织更顺利地运行 。 以数据为中心的方法涉及系统地改进、改进数据集 , 以提高ML应用程序的准确性 , 对数据进行处理是以数据为中心的中心目标 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
数据驱动VS以数据为中心
许多人经常混淆「以数据为中心」和「数据驱动」这两个概念 。 数据驱动是一种从数据中收集、分析和提取见解的方法 , 它有时被称为「分析」 。 另一方面 , 以数据为中心的方法侧重于使用数据来定义应该首先创建的内容;而以数据为中心的架构指的是一个系统 , 其中数据是主要和永久的资产 。 数据驱动架构意味着通过利用大量数据来创建技术、技能和环境 。
对于数据科学家和机器学习工程师来说 , 以模型为中心的方法似乎更受欢迎 。 这是因为从业者可以利用自身知识储备来解决特定问题 。 另一方面 , 没有人愿意花大量时间去标注数据 。
然而 , 在当今的机器学习中 , 数据至关重要 , 但在AI发展中却经常被忽视和处理不当 。 由于数据错误 , 研究者可能花费大量时间进行查错 。 模型精度较低的根本原因可能不是来自模型本身 , 而是来自错误的数据集 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
除了关注数据外 , 模型和代码也很重要 。 但研究者往往倾向于在关注模型的同时忽略数据的重要性 。 最好的方法是同时关注数据和模型的混合方法 。 根据应用程序的不同 , 研究者应该兼顾数据和模型 。