暴雨|「数据新星」Databricks 崛起启示录( 三 )


图:Snowflake与Databricks定价对比(来源:官网)
另一方面 , 通过对比官网收费方式发现 , 虽然是平台租出服务器的计算资源 , 但这些服务器整个系统都建立在主要的云厂商的基础服务上 。 以Snowflake(左)为例 , 同样是以每秒粒度使用的计算资源付费 , Snowflake是平台和云厂商打包收费方式 , 客户对底层服务界面(如EC2)和上游的Snowflake的成本花费要一次性付清 , 但比例是怎样无从得知 , 而打包之后Snowflake需要支付给云厂商另外成本 , 这在无形中增加了费用风险 。
Databricks(右)的玩法是分开收费 , 用户的账单主要分为两部分:常规的底层云厂商服务器租用成本 , 以及Databricks在这些服务器上的功能费用 。 客户使用底层器时 , 费用单独付给云厂商 , 并不算在Databricks的营收里 。
所以如果对比营收 , 比如2020年的Snowflake营收近6亿 , 但刨去付给云厂商的费用 , 和Databricks4亿多的营收相比 , 也差不了多少 。 而这既是Databricks毛利率比Snowflake高的原因 , 也是前者赚钱能力强的体现 。 有观点猜测Databricks迟迟不上市的原因 , 如果根据Ghodsi的说法 , 是为了避免二级市场所带来的波动 , 或许收费方式被迫改变等不可预测因素也在里面 。
天时地利人和根据官网显示 , 除了为数据科学家、数据领导者与数据工程师提供角色解决方案 , Databricks还利用大数据和AI为广告和营销、通讯服务商、教育、能源、联邦政府、金融、医疗等13类行业提供服务 。
从类别数量上 , Databricks要多于Snowflake , 此时全球已经有7000 多家组织(包括荷兰银行、康泰纳仕、H&M 集团、再生元和壳牌)依靠 Databricks 实现大规模数据工程、协作数据科学、全生命周期机器学习和业务分析 。
通常情况下 , 企业客户在进行数据架构时 , 第三方平台提供数据湖方案 , 在数据湖中做一些常见的数据工程;同时会有一个数据仓库 , 存放相当于数据湖5%-10%的结构化数据 , 来做BI等简单的数据分析 。
但由于数据分裂在两个系统上 , 针对同一个客户问题分析 , 不同团队有不同权限 , 因而会看到不同版本的同一份数据 , 当得出不同结论后 , 做商业决策的团队不相信数据 , 进而导致底层数据平台失信 , 这是个很致命的问题 。
将结构化和非结构化数据结合到一个地方 , 让客户在不移动底层数据的情况下执行数据科学和商业智能工作 , 是大数据发展的一个关键变化 。 于是 , Databricks决定力推Lakehouse , 能够直接在数据湖的低成本存储上 , 实现类似于数据仓中的数据结构和数据管理的功能 , 可支持BI到AI所有的工作流 。
从Databricks的网页介绍上看 , 无论是数据工程、数据科学 , 还是机器学习都要依靠Lakehouse运行 , 加上过去使用低成本对象存储的数据湖的访问速度很慢 , 如今DB SQL提高了分析质量和性能 , 使数据湖在大数据集上的处理与数据仓库相媲美 。
“Lakehouse是一个新赛道 , 这是一场地盘争夺战” , H轮融资之后 , Ghodsi表示 , 这笔资金将主要用于加速Lakehouse的产品创新和市场开拓 。 与此同时 , Databricks透露保留所有主要公共云的选择和灵活性 , 并将Lakehouse发展成传统数据仓库的替代品 。
越来越多的企业乐于看到Databricks的实力和发展潜力 , 这和它本身的商业逻辑有关 , 业内传统企业如Teradata在营收额上虽高过Databricks好几个身位 , 但市值仍徘徊在40多亿美元 。 大剂量的资金注入后 , Databricks选择并购来填补产品路线图中的空白或不足 , 重点是机器学习和数据初创公司 , 以及扩大与云公司的合作伙伴关系 。