数据仓库|滴普科技完成1.1亿规模的B+轮融资 迎来爆发式增长

数据仓库|滴普科技完成1.1亿规模的B+轮融资 迎来爆发式增长

文章图片


湖仓一体 , 正成为数据库行业发展新趋势 。
过去几年 , 全球数据库行业发展迅猛 。 2021年 , Gartner魔力象限发生了两个关键的变化:1、Snowflake和Databricks两个云端数据仓库进入领导者象限;2、放开了魔力象限的收入门槛限制 , SingleStore、Exasol、MariaDB、Couchbase等数据库新势力首次进入榜单 。
某种程度上 , 这种变化的背后 , 暗示着全球数据库已经进入发展的黄金时代 , 也是一众新兴势力的加速崛起之年 。 其中 , 最为典型的例子是Snowflake和Databricks经常隔空喊话 , 前者是云端数仓的代表玩家 , 去年继续保持了1倍以上的业务增长;后者因推出“湖仓一体” , 估值一路飙升至360亿美金 , 两者之争 , 其实是数据库新旧架构之争 。
近日 , 国内新一代湖仓一体数据智能基础软件领域独角兽——滴普科技完成1.1亿规模的B+轮融资 , 这一赛道在国内也正式迎来爆发式增长 。
实际上 , 随着企业数字化驶入深水区 , 对于数据使用场景也呈现多元化的趋势 , 过去容易被企业忽略的数据 , 开始从幕后走到台前 , 如何为众多场景选择一款合适的数据库产品 , 已经成了很多CIO和管理者的一道必答题 。 但有一点可以确定的是 , 过去的数据库已难以匹配眼下日益增长的数据复杂度需求 , 基于扩展性和可用性划分 , 分布式架构突破单机、共享、集群架构下的数据库局限 , 近些年发展态势迅猛 。
湖仓一体到底是什么?
在湖仓一体出现之前 , 数据仓库和数据湖是被人们讨论最多的话题 。 正式切入主题前 , 先跟大家科普一个概念 , 即大数据的工作流程是怎样的?这里就要涉及到两个相对陌生的名词:数据的结构化程度和数据的信息密度 。 前者描述的是数据本身的规范性 , 后者描述的是单位存储体积内、包含信息量的大小 。
一般来说 , 人们获取到的原始数据大多是非结构化的 , 且信息密度比较低 , 通过对数据进行清洗、分析、挖掘等操作 , 可以排除无用数据、找到数据中的关联性 , 在这个过程中 , 数据的结构化程度、信息密度也随之提升 , 最后一步 , 就是把优化过后的数据加以利用 , 变成真正的生产资料 。
简而言之 , 大数据处理的过程其实是一个提升数据结构化程度和信息密度的过程 。 在这个过程中 , 数据的特征一直在发生变化 , 不同的数据 , 适合的存储介质也有所不同 , 所以才有了一度火热的数据仓库和数据湖之争 。
我们先来聊聊数据仓库 , 它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合 , 主要用于支持管理决策和信息的全局共享 。 简单点说 , 数据仓库就像是一个大型图书馆 , 里面的数据需要按照规范放好 , 你可以按照类别找到想要的信息 。
就目前来说 , 对数据仓库的主流定义是位于多个数据库上的大容量存储库 , 它的作用在于存储大量的结构化数据 , 为管理分析和业务决策提供统一的数据支持 , 虽然存取过程相对比较繁琐 , 对于数据类型有一定限制 , 但在那个年代 , 数据仓库的功能性已经够用了 , 所以在2011年前后 , 市场还是数据仓库的天下 。
到了移动互联网时代 , 数据量呈现“井喷式”爆发 , 数据类型也变得异构化 。 受数据规模和数据类型的限制 , 传统数据仓库无法支撑起互联网时代的商业智能 , 随着Hadoop与对象存储的技术成熟 , 数据湖的概念应用而生 , 在2011年由James Dixon提出 。
相比于数据仓库 , 数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施 。 它就像一个大型仓库 , 可以存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据 , 数据湖通常更大 , 存储成本也更为廉价 。 但它的问题也很明显 , 数据湖缺乏结构性 , 一旦没有被治理好 , 就会变成数据沼泽 。