数据仓库、数据集市、数据湖、数据中台到底有什么区别?

经常看到有人问这个问题 , 数据玩家也看过很多解释 , 感觉都不够直观 , 这里 , 我尝试用一个大家都理解的例子来说明 。
大家都去宜家买过东西吧 , 还记得一楼的大仓库不 , 你如果看中了某个家具 , 想要自己去仓库提货 , 一般都会记下商品上的编码:
数据仓库、数据集市、数据湖、数据中台到底有什么区别?
文章图片
这个编码对于顾客来说 , 肯定是没有任何含义的 , 看到这个编码 , 不可能知道他是一个什么商品 。
但是这个编码 , 对于仓库管理员来说是有含义的 , 他们可以清楚的知道 , 是哪一个货架 , 哪一个位置 。
当然 , 顾客到仓库里顺着货架和位置也可以找到商品 , 但是总归不太直观 , 挑选的过程还是得在楼上进行 。
因此数据仓库就相当于宜家的一楼仓库 , 在这里 , 数据(家具)按照特定的模型 , 如FS-LDM等(货架-位置)组织起来 , 这种模型 , 对于顾客(业务人员 , 数据最终用户)是不友好的 , 但是对于科技人员(仓库管理员 , 宜家员工)来说相对友好 , 因为他按照一种更加集约化的规则将数据(家具)管理起来了 , 存放集中、规整 , 提取数据(提货)不用跨库(货仓)寻找 , 查找的效率更加高 。
还是用这个例子 , 上文提到 , 数据仓库对业务人员不是很友好 , 同样 , 你总不能让顾客直接逛仓库吧?顾客的需求 , 是按照家具的种类分门别类 , 按照家庭的不同房间 , 组合在一起展示的 , 正如宜家楼上的展厅:
数据仓库、数据集市、数据湖、数据中台到底有什么区别?
文章图片
虽然也被吐槽像迷宫一样 , 但是总的来说 , 购物体验肯定比逛仓库来得好多了 。
所以 , 数据集市就像宜家楼上的展厅 , 正如其名字“集市”一样 , 是一个面向最终用户(顾客)的数据市场 , 在这里 , 数据(家具)以一种更加容易被业务人员(顾客)接受的方式组合在一起 , 这些组合方式可能是多变的 , 因为业务人员(顾客)的需求是多变的 , 因此我们需要定期调整集市的计算口径(展厅的陈列方式) , 经常会创建新的数据集市(装修新的展厅) 。
数据仓库和集市的概念理解了 , 其他一些相关问题也就迎刃而解 , 比如为什么有了数据仓库还要建数据集市?等等 。
数据湖至今仍然没有一个特别标准的概念 , 各种概念中 , 比较统一的一点是数据湖存储的是未经加工的原始数据 , 包含结构化和非结构化的各类数据 。 数据玩家仍然尝试用上面的例子来解释 。
大家都知道 , 宜家的家具是需要自己组装的 , 所以宜家的顾客们都有一些动手能力 , 他们突发奇想 , 所有的家具能不能全部拆散成零部件存放 , 由顾客们根据实际需要挑选零部件自行拼装?
所以 , 数据湖就是一个存储了所有企业内原始数据(家具零部件)的存储 , 这就带来一系列问题 , 加工后数据的存储已经非常复杂 , 原始数据则依赖更多的管理功能 , 不然数据又多又杂难以管理 , 数据湖会退化为数据沼泽 。 此外 , 原始数据如果缺少统一的数据标准 , 就像不同的家具零部件之间的接口不同 , 那就无法组装在一起了 。
数据仓库、数据集市、数据湖、数据中台到底有什么区别?
文章图片
因此 , 数据湖必须有完善的数据管理功能 , 也依赖于统一的数据标准和良好的数据质量管理 。
数据中台也没有一个特别明确的定义 , 这里很难套用宜家的例子强行解释了 , 我们来看下各类数据平台:
数据仓库、数据集市、数据湖、数据中台到底有什么区别?