分层|最详细!深入浅出理解「3层6类」数据分层

编辑导语:本篇作者是给我们讲述了数据组成及其表现形式,重点讲解了“数据分层”这个概念的意义、背景、逻辑和其应用等,一起来看一下。
分层|最详细!深入浅出理解「3层6类」数据分层
文章插图
上一节讲述了数据的基本定义,按正常流程应该来为大家介绍数据的采集和处理,但是这一节主要来说明数据组成以及表现形式。因为这对一个数据产品而言是至关重要的一部分,好比必须要学好数学,你掌握了阿拉伯数字之后必须要掌握四则运算一样。现在咱们来讲一下数据的“四则运算”。
讲到这里,咱们就要引入一个概念“数据分层”。讲数据分层之前,咱们先来说一个贴近现实生活的例子,帮助大家更好地理解数据分层:
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
简单来说,数据分层是把现实世界中收集到的有效信息用更加合理的方式表现出来,从而可以更快速的去解决问题。
一、数据分层的意义还记得上篇文章中,我们如何定义数据的吗?
数据:是通过观测得到的数字性的特征或信息。
所以,数据只是我们对客观世界的记录,而数据建模是我们对数据的抽象,为什么要对数据进行抽象呢?
设想一下这样的场景,数据爆炸的时代,数据的体量每天、每小时、甚至每秒都在激增。当这样的数据不断的出现,没有一套科学的方法去对这些数据进行整理和归档,我们永远无法从海量数据中获取到有价值的数据。
所以数据分层的意义在于:

  1. 降低存储成本:减少不必要的数据冗余,从而极大地降低存储和计算成本,更好且有效的利用数据。
  2. 提高使用效率:当业务发生变化时,可以更加方便的进行扩展,提高数据稳定性和连续性。
  3. 保障数据质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
数据模型能够促进业务与技术进行有效沟通,形成对主要业务定义和术语的统一认识,具有跨部门、中性的特征,可以表达和涵盖所有的业务。
二、数据分层的背景当企业发展到一定阶段,传统的数据库无法承载大量的数据承载,尤其在数据多而繁杂的情况下,对于使用者,需要数可以更加清晰且有逻辑的适用;对于维护者可以高效有序的进行维护,分层数据设计,即数据仓库dw应运而生。
说起数据仓库,不得不提到创造他的人,比尔.恩门(Bill Inmon)。他在自己的著作《建立数据仓库》一书中所提出的数据仓库的定义:“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。”
简单来解释,就是把大量数据更有逻辑的组合在一起,并且同时方便使用者和创建者进行操作与应用。
三、数据分层的逻辑上面两个图可以很清晰的看出分层后的好处,把一团乱麻的数据表进行分层和整理。数仓分层的价值在于: