滴普科技:为什么说DataOps是数据中台的拐点?( 三 )

】在2018年Gartner发布的《数据管理技术成熟度曲线》报告中 , DataOps概念被首次提出 。
维基百科对DataOps的定义是一种面向流程的自动化方法 , 由分析和数据团队使用 , 旨在提高数据分析的质量并缩短数据分析的周期 , 简而言之 , 就是提供一整套工具和方法论 , 让数据应用的开发和管理更加高效 。 但Gartner也指出 , DataOps虽然可以降低数据分析的门槛 , 但并不会让数据分析变成一项简单的工作 , 与DevOps的落地一样 , 实施成功的数据项目也需要做大量的工作 , 比如深入了解数据和业务的关系、树立良好的数据使用规范等 。
滴普科技:为什么说DataOps是数据中台的拐点?
文章图片
图:Gartner对DataOps的定位(来源:Gartner官方)
就像前文我们所提到的 , DataOps的诞生并不是偶然 , IBM商业价值研究院曾有过一份研究:数据科学家往往需要花费大量时间准备、验证和清理数据源 , 然后才能使用这些数据源训练数据模型 , 因此他们只能用少得可怜的一点点时间 , 去设计用于将数据转化为价值的AI模型 。 据估计 , AI部署过程中有80%的工作都用于准备数据 。
如果从第一性原理出发 , 你会发现DataOps与数据中台需要解决的问题其实是相类似的 , 它们都希望能更快、更好地实现数据价值 , 实现数字化运营 , 但两者侧重点却有所不同 。
前者强调的是数据应用的开发和运维效率提升 , 类似于DevOps解放了开发人员的生产力 , 后者强调的是数据统一管理和避免重复造轮子 , 是对数据能力的抽象、共享以及复用 。
上升到产品原教旨主义层面 , 如果说数据中台强调的是战略层次的布局 , 即必须有一个中台来承担所有数据能力的管理和使用 , 那么 , DataOps强调的就是战术维度的优化 , 即如何让各个开发和使用实际数据应用的人员更加高效 , 换句话说 , 数据中台只是粗线条地描述了最终目标 , 而DataOps提供了一条更加精细化的最佳路径 。
滴普科技:为什么说DataOps是数据中台的拐点?
文章图片
图:DataOps架构(来源:DivingintoDataOps:TheUnderbellyofModernDataPipelines韦恩·埃克森)
当然 , 这和DataOps的架构有关 。 按照技术层面的解释 , DataOps重点放在了数据中心 , 为用户提供了一系列数据工具 , 并通过人员协作与流程管控的模式 , 实现持续的数据科学模型部署 , 这可以通俗理解成“编排” , 同时也是DataOps核心灵魂所在 , 因为一个好的编排工具意味着它能协调数据开发项目的4个组成部分 , 包括代码 , 数据 , 技术和基础架构 。
因此 , 在云智能时代 , DataOps是面向5G多云复杂部署数据处理的有效手段 , 也极有可能成为数据中台的发展拐点 。
03追求DataOps , 需要回归第一性原理DataOps的优势显而易见 , 比如它能改善数据管理者和数据消费者角色之间的沟通 , 让双方处于同一页面上;整合整个企业的数据流 , 并通过数据管道自动化降低运营成本;通过良好的监控 , 保证可靠性和可观察性 。
滴普科技方面认为 , “拥有更强大的数据管理能力 , 是面向未来的架构关键特征 。 以当下主流的分析型数据库湖仓一体为例 , 想要完成湖仓一体的最终建设 , 则必然要经历以下三个阶段:数据入湖——数据治理和质量——DataOps 。 ”
滴普科技:为什么说DataOps是数据中台的拐点?
文章图片
图:DataOps开发流程(来源:滴普科技官方)
但这并不意味着它是一副万能药 。
就像前文所述 , 虽然DataOps可以降低数据分析的门槛 , 但不会让数据分析变成一项简单的工作 。 与DevOps相类似 , DataOps的使用与发展 , 也是一个需要有正确工具和正确思维加持的持续过程 , 它的目标是用正确的方式实现数据智能项目落地 , 解放数据的功能属性 , 形成生产力 。