数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?

编辑导读:在上一篇中,作者讲述了数仓的前世DBMS、今生数仓以及大家耳熟能详的OLAP。本篇文章讲的是数仓的今生——DW数据仓库(包含OLAP操作),一起来文中看一下吧。
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?
文章插图
上一篇咱们重点把数仓的前世:DBMS 数据库管理系统(OLTP)讲解的非常清楚,大家可戳 《秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?(上篇)》
今天我们重点来讲解下篇数仓今生:DW数据仓库(包含OLAP操作)
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?
文章插图
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?
文章插图
一、DW是啥:定义由于数据量的不断膨胀,人们对数据需求的精细化(从月到天,从天到小时,从小时到分钟),OLTP仅仅针对关系型数据库做联机事务处理已经无法满足要求。此时,Dataware数据仓库的体系结构应运而生,DW环境中的处理类型可以概括为装载和访问过程。数据一旦被装载,通常是无法更新的,紧接着就会被用于访问查询,用于各类分析。
此时,我们会经常使用一种OLAP的技术优化数据结构,使得企业灵活对数据进行查询访问。
OLAP,即多维数据库管理系统处理,他提供了一种信息系统结构,这种结构可以使得企业对数据进行灵活访问,有多种方式对数据进行切片、分块,可以灵活动态的考察汇总数据和细节数据之间的关系与变化。
二、为啥需要DW:意义DW主要有以下意义和特点

  • 降低 存储成本:减少不必要的数据冗余,从而极大地降低存储和计算成本,更好且有效的利用数据。
  • 提高 使用效率:当业务发生变化时,可以更加方便的进行扩展,提高数据稳定性和连续性
  • 保障 数据质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
三、如何用DW:具体建模一共分为三层六类
  • 第一层:ODS操作数据存储层
  • 第二层:DW数据仓库层,其中又可以分为公共维度汇总层 DIM、数据仓库层DW(数据细节层DWD、数据中间层DWM、数据服务层DWS)
  • 第三层:ADS应用数据服务层
这部分详情可见文章《》
四、关于OLAP4.1 啥是OLAP:定义大家在和研发对接的过程中,可能会经常听到OLAP这个词,到底OLAP是啥呢?OLAP是否就等价于DW呢?
其实不是这样的,我们先来区分下DW数仓和OLAP:
  • DW数据仓库是一种数据库,其设计使得分析数据更容易(通常使用来自多个来源的数据)。它通常由事实表和维度表组成,并且通常由聚合表组成。
  • OLAP是一组操作可以对数据集进行操作,例如旋转,切片,切割,钻孔。例如,可以使用Excel数据透视表执行OLAP操作。
所以从本质上来说,两者并不等价,从包含关系上来说,DW包含了OLAP这种操作,OLAP也是DW数仓中的重要一环。如果再直白一点表达这两部分差异,DW数据仓库是一个日常管理和存储数据的地方,OLAP是一种分析数据的方法。
4.2 OLAP有啥用:特点此时肯定有人要问了,我用DBMS的关系型数据库也能进行分析,为啥要用OLAP分析呢?
——关系数据库报表工具当然可以查询、报表和分析存储在表中的多维数据,但随着数据量的增加,性能会变慢。并且需要大量的工作来重新组织结果以关注不同的维度。例如,以前只需要业务A整体的数据,现在要看这个业务下人群1和人群2的数据,或者要看业务A和业务B下有交叉的人群1和人群2的数据情况,再交叉时间维度一起。
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?