分层|最详细!深入浅出理解「3层6类」数据分层
编辑导语:本篇作者是给我们讲述了数据组成及其表现形式,重点讲解了“数据分层”这个概念的意义、背景、逻辑和其应用等,一起来看一下。
文章插图
上一节讲述了数据的基本定义,按正常流程应该来为大家介绍数据的采集和处理,但是这一节主要来说明数据组成以及表现形式。因为这对一个数据产品而言是至关重要的一部分,好比必须要学好数学,你掌握了阿拉伯数字之后必须要掌握四则运算一样。现在咱们来讲一下数据的“四则运算”。
讲到这里,咱们就要引入一个概念“数据分层”。讲数据分层之前,咱们先来说一个贴近现实生活的例子,帮助大家更好地理解数据分层:
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
简单来说,数据分层是把现实世界中收集到的有效信息用更加合理的方式表现出来,从而可以更快速的去解决问题。
一、数据分层的意义还记得上篇文章中,我们如何定义数据的吗?
数据:是通过观测得到的数字性的特征或信息。
所以,数据只是我们对客观世界的记录,而数据建模是我们对数据的抽象,为什么要对数据进行抽象呢?
设想一下这样的场景,数据爆炸的时代,数据的体量每天、每小时、甚至每秒都在激增。当这样的数据不断的出现,没有一套科学的方法去对这些数据进行整理和归档,我们永远无法从海量数据中获取到有价值的数据。
所以数据分层的意义在于:
- 降低存储成本:减少不必要的数据冗余,从而极大地降低存储和计算成本,更好且有效的利用数据。
- 提高使用效率:当业务发生变化时,可以更加方便的进行扩展,提高数据稳定性和连续性。
- 保障数据质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
二、数据分层的背景当企业发展到一定阶段,传统的数据库无法承载大量的数据承载,尤其在数据多而繁杂的情况下,对于使用者,需要数可以更加清晰且有逻辑的适用;对于维护者可以高效有序的进行维护,分层数据设计,即数据仓库dw应运而生。
说起数据仓库,不得不提到创造他的人,比尔.恩门(Bill Inmon)。他在自己的著作《建立数据仓库》一书中所提出的数据仓库的定义:“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。”
简单来解释,就是把大量数据更有逻辑的组合在一起,并且同时方便使用者和创建者进行操作与应用。
三、数据分层的逻辑上面两个图可以很清晰的看出分层后的好处,把一团乱麻的数据表进行分层和整理。数仓分层的价值在于:
- 方便使用:将多而繁杂的数据表通过一定的结构进行规范,便于使用方进行使用。
- 追溯源头:分层后的数据血缘非常明确,可以快速获取上游数据的来源。
- 易于维护:规范后数据可以减少数据开发,节约各类计算存储资源,方便维护人员进行维护。
- 简化工作:当发生变化时,可以针对单点进行针对处理,大大简化工作量。
- 京东|适合过年送长辈的数码好物,好用不贵+大牌保障,最后一个太实用
- 苹果|苹果最巅峰产品就是8,之后的产品,多少都有出现问题
- 红米手机|天玑1200手机将升级换代?红米真我两款机型降价,最低1599元
- 苹果|最具性价比的苹果手机来了,降价2120元,iPhone12已跌至冰点价
- 5G|关于5G,华为赢了
- 华为|华为任正非最新信件曝光:春天很快就会到来!
- 飞利浦·斯塔克|最便宜的小米 12 来了,2000 块左右
- 一嗨租车|倪光南最辉煌的时光是不是和柳传志的那段“蜜月期”?
- 微信聊天最令人头疼的场景是什么?一定有人会说是对方发来一连串语音还都是超过30秒的长消息...|终于!微信上线万众期待的新功能!网友:总算等到了
- 发现最小白矮星,其大小相当于月亮,这让科学家很兴奋