MLOps 是构建在一个谎言上的吗?( 二 )


由此 , 我回看了Transform2019大会小组讨论的录像 。 我认定这就是所有一切的源头所在 , 并最终了解这一奇幻数字是如何在各MLOps演讲中口口相传 。
顺便说一句 , 我注意到该视频上传YouTube的两年以来 , 只被观看353次 , 得到0条评论 。 因此我认为 , 并没有多少人有兴趣去厘清为什么近十个机器学习项目中会有九个失败 。 正好 , 我就是来搞清楚的 。
我竖耳倾听了这段26分钟长度的视频 , 试图捕捉到是否有演讲者提及87%的数据科学项目失败 , 或是只有13%的项目成功等类似说法 。 为确保不漏一处 , 我看了三遍 , 最终有所发现 。 在视频大约第10分钟处可听到:
我认为《CIODive》杂志指出只有13%的项目最终实际投产 。 我非常惊讶于13%这一数据 。
这句话正是IBM数据科学和人工智能行业CTO、全球领袖人物DeborahLeff说的 。
不幸的是 , 这只是我查证过程中遵循的一个线索(breadcrumb) 。 显然 , Transform2019大会小组讨论并非我能确证的信息来源 。
那么 , 下面我们去追溯《CIODive》杂志文章吧 。
4
《CIODive》杂志是这么说的
MLOps 是构建在一个谎言上的吗?
文章图片
图3JamesRoberts撰写的文章 。
来源:CIODive.com
在Transform2019大会两年前的2017年 , 现任Quisitive首席数据科学家的JamesRoberts应邀为《CIODive》杂志撰写了一篇文章 , 指出了导致大多数数据科学项目失败的四个原因 。 我希望该文最终揭示了87%这个神奇数字的由来 , 以及该数字是如何测定的 。
文章篇幅相对较短 , 很有条理 。 因此我全文通读了多遍 , 在其中发现如下表述:
2017年被专家称为数据素养(dataliteracy)和数字化转型之年 。 虽然数据是推动真正数字化转型的关键元素 , 但公司常以错误的方式推行数据和分析项目 。 事实上 , 只有13%的数据和分析项目得以完成 。 并且在已完成的项目中 , 只有8%的公司领导对结果表示完全满意 。
我对13%这一数字非常敏感 。 正如DeborahLeff所说 , 她是从《CIODive》杂志获取该信息的 。 但这个数字来自何处?哪里有解释?是否依然只是一条线索?
为什么只有13%的“数据和分析项目”能够完成?
不幸的是 , 我们对这一论点的来源一无所知 。 也许只是《CIODive》杂志文章出于某种目的而捏出来的一个数字 , 或许是作者忘记指出对其它最终详细评定87%数据科学项目失败的文章的引用 。
尽管十个机器学习项目中完全有可能失败九个 , 但对此做出一个可靠的衡量是几乎不可能得 , 甚至“失败”或“投产”也是无法准确定义的 。 首当其冲 , 我们应如何准确定义机器学习模型的投产?
如果使用FastAPI等提供了单一的API端点服务 , 就能说项目投产了吗?是否还需要建立完整的CI/CD/CT流水线和监控?更重要的是 , 有些项目并不需要也没有计划去部署到生产环节中 , 这是否也会被视为失败?
查无实据 , 我也毫无头绪 , 略为失望 。
应该如何阐释?
5
小结
有位首席数据科学家于2017年受邀在《CIODive》杂志发表了一个“观点” , 指出“只有13%的数据和分析项目完工” 。 这一神奇数字没有来源 , 也没有指出研究论文出处 , 具体出处的相关信息为零 。
此后 , 该文由IBM数据科学和人工智能CTO和全球领导人物DeborahLeff在Transform2019大会小组讨论中提及 。 她说:“我认为《CIODive》杂志指出 , 只有13%的项目最终实际投产 。 ”
然后 , VentureBeat在介绍VentureBeatTransform2019大会小组讨论情况的软文中引用了这一数字 , 尽管文章中甚至没有提供视频录像的链接 。 那么随后发生了什么?