MLOps 是构建在一个谎言上的吗?

作者|MateuszKwa?niak
译者|王强
策划|刘燕
在一些MLOps项目的背景介绍中 , 都会提及“87%的数据科学项目以失败告终”的论点 。 这个数据具体出自何处 , 是否准确测定?本文作者通过相关文献资料调研 , 指出该论点并无实据可依 。 尽管MLOps非常必要 , 但社区、学术界和业界不应以基于此论点开展讨论 。
大家是否听说过这样一个论点 , 即87%的数据科学项目以失败告终?
“机器学习运维”(MLOps)对数据科学家、机器学习工程师等数据科学领域相关从业人士来说都应该耳熟能详了 。 这个概念相对较新 , 但越来越多的人们开始想要了解什么是MLOps , 以及如何在自身项目中应用MLOps实践和工具 。
我相信大家也注意到了这种趋势 。 MLOps社区正在持续不断成长(我也有幸参与其中) 。 MLOps的相关议题和文章 , 涵盖了几乎全部机器学习领域会议 。 最近吴恩达和DeepLearning.ai也跟进 , 在Coursera发布了他们的MLOps课程“用于生产环境的机器学习工程”(可访问:https://www.coursera.org/specializations/machine-learning-engineering-for-production-mlops)
作为一名MLOps工程师 , 我阅读并关注了大量的相关内容 。 我发现同一批图表和统计结果 , 多次作为核心内容出现在各种演示报告中 , 演示内容越来越千篇一律了 。
MLOps 是构建在一个谎言上的吗?
文章图片
此外我发现有一个特别有趣的素材在这些演讲和帖子里被复制来粘贴去 , 于是我要研究一下 。 是否真的“有87%的数据科学项目无法投入生产环节” , 本帖将对此一探究竟 。
1
87%这一数字出自何处?
如果读者正参与面向社区和潜在客户的MLOps新产品展示宣讲 , 那么很有可能会看到这么一句:
87%的数据科学项目无法投入生产环节 。
不仅如此 , 这一论点还出现在福布斯报道、StackOverflow博客等处 , 以及遍布互联网的各博客帖子和会议视频中 。 这句话或类似的解释 , 已成为在阐释MLOps商业特性中不可或缺的描述 。
那么该论点出自哪里?看上去是引用自VentureBeat的一篇文章(原文:https://venturebeat.com/2019/07/19/why-do-87-of-data-science-projects-never-make-it-into-production/) 。 下面我们转向该文章 。
2
VentureBeat文章是这么说的
图1VentureBeat的文章标题 。
来源:VentureBeat.com
该文撰写于2019年7月 。 在此我必须指出的是 , 这是一篇介绍VentureBeatTransform2019大会小组讨论情况的软文 。 文章无非是一个短评 , 其中引用了大会小组议题“如何理解人工智能实施”(https://www.youtube.com/watch?v=EzmTZlho-EI)中的内容:
人工智能基于经验提供竞争优势 。 即然大家有此通识 , 那么为什么只有13%的数据科学项目(或者说每十个项目中只会有一个)实际投入生产?
Chapo指出 , 为避免落入这87%的失败项目中 , 项目开始时可以采取三种方式 。 第一 , 从小处着手 , 不要试图去面对一片汪洋 , 而是从中选择一个痛点去解决 , 进而可看到进展 。 第二 , 为解决问题 , 确保具备一支适合的跨职能团队 。 第三 , 借助于第三方 , 甚至是一些大企业 , 从项目一开始就得到加速助力 。
回顾这一惊人观点 , 即87%的数据科学项目是失败的 , 或者说无法投产 , 其中的数字的出自何处?我并没有在文章中找到 , 所以我决定上YouTube看一下演讲视频 , 肯定是在视频里的 。
3
Transform2019大会小组讨论中是这么说的
MLOps 是构建在一个谎言上的吗?
文章图片
图2Transform2019大会小组讨论的视频截图 。
来源:YouTube 。