数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?( 二 )


文章插图
多维分析,这就是 OLAP 多维数据集的用武之地以及最大特点。OLAP 多维数据集使用附加层扩展了单个表,每个层都添加了附加维度——通常是维度“概念层次结构”中的下一个级别。例如,立方体的顶层可能按地区销售;附加层可以是国家、省、城市甚至特定商店。
理论上,一个立方体可以包含无数层。(代表三个以上维度的 OLAP 多维数据集有时称为超多维数据集。)层中可以存在更小的多维数据集。例如:每个商店层可以包含按销售人员和产品排列销售情况的多维数据集。在实践中,数据分析师将创建仅包含他们需要的层的 OLAP 多维数据集,以实现最佳分析和性能。
4.3 如何用OLAP:支持的操作OLAP 多维数据集支持四种基本类型的多维数据分析:
下钻操作
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?
文章插图
向下钻取操作通过以下两种方法将粗略的数据转换为更详细的数据 :在概念层次结构中向下移动或向多维数据集添加新维度。例如,如果你想查看季度的销售表现,可以以月为单位向下钻取查看每个月的销售额,在“时间”维度的概念层次结构中维度下移。
上卷操作
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?
文章插图
与下钻相反,上卷通过在概念层次结构中向上移动或减少维数来聚合 OLAP 多维数据集上的数据。例如,可以通过查看每个区域的数据,而不是每个城市的数据,在“位置”维度的概念层次结构中向上移动。
切片操作
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?
文章插图
切片是通过从主 OLAP 多维数据集中选择一个维度来创建子多维数据集。例如,你可以通过切片来突出表示某业务线第二季度的销售情况
切快操作
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?
文章插图
切块操作通过在主 OLAP 多维数据集中选择一个小的多维数据集。例如,我只需要分析华南区域男装和妈妈装业务线下半年的销售情况。
旋转操作
数据量|秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?
文章插图
旋转当前的多维数据集视图。其实OLAP 的这个操作与Excel中的数据透视表功能相当, OLAP 数据透视表相对更易于使用(仅需较少的专业知识),并且具有更快的响应时间和查询性能。
4.4 OLAP有哪些:分类按数据存储方式(建模类型)分类,可分为 MOLAP、ROLAP、HOLAP等。
MOLAP:Multidimensional(多维的 )OLAP
将数据存储在优化的多维数组中,而不是关系数据库中。
优点:性能绝佳,MOLAP cubes为了快速数据检索而构建,具有最佳的分块和分片操作。可以执行复杂的计算,速度快。
缺点:可以处理的数据量有限,因为所有的计算都是执行在构建的多维数据集上,多维数据集本身不可能包括大量的数据。需要额外的成本,多维数据集技术往往是有专利或现在并不存在在某个组织中。因此,要想采用MOLAP技术,通常是要付出额外的人力和资源成本。
ROLAP:Relational (关系型) OLAP
将分析用的多维数据存储在关系数据库中。这种方式依赖SQL语言实现传统OLAP的切片和切块功能,本质上,切片和切块等动作都等同于在SQL语句中添加“WHERE”子句。
优点:可以处理大数据量,ROLAP技术的数据量大小就是底层关系数据库存储的大小,ROLAP本身没有对数据量的限制。
且可以利用关系型数据库所固有的功能,关系型数据库已经具备非常多的功能。
劣势:性能可能会很慢,因为每个ROLAP包裹实际上是一个SQL查询(或多个SQL查询)关系数据库,可能会因为底层数据量很大,使得查询的时间很长。