模型|10分钟帮你清晰理解「Inmon数据仓库建设」

编辑导语:数据分层都包含什么,怎么理解?在上一篇已经讲清楚了,那么Inmon数据仓库建设该如何搭建?作者从其定义、模型建设以及适用范围进行分析,提高企业管理和决策的效率,希望对你有帮助。
模型|10分钟帮你清晰理解「Inmon数据仓库建设」
文章插图
上一篇我们把数仓的分层情况讲解清楚:数仓的背景、逻辑、应用等等。
有心的同学一定会问了,这些分层是谁制定的呢?有相关的标准吗?
想要了解这个问题,你要先了解两个人,Inmon和Kimball,这两位大师就像唐诗界的李白和杜甫,如果想要透彻了解清楚数仓,一定要了解下这两位大师的对数仓的建设和推动做了哪些事情。
了解大师最好的方式就是去阅读原著,由于今天的主角是Inmon大师,所以我精读他的著作《Building the data warehouse》。第一遍我看的是中文版本,但是很多精髓在翻译过程中有缺失,所以又去看了两遍原著。
一、Inmon对数仓的定义数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。
面向主题:按照特定的业务特点来决定,例如:对一个保险公司来说,问题是:汽车保险、健康保险等等;对公司来说,问题是:顾客、保险单、保费、索赔。不同类型的公司主题集合不同。
集成的(重点):最为重要,把各个操作系统汇集到数据仓库,要进行转换、格式化、重新排列、汇总等。进入数据仓库之前,需要消除不一致性,例如:有的性别维值是“男女”,有的是“f/m”。命名习惯、关键字结构、属性度量单位以及数据物理特点。
不可修改的:操作系统环境一般是定期更新,数仓通常是批量载入与访问(一般不进行传统意义的更新)。数仓的载入是以静态快照进行。
随时间变化:在他的原著《Building the data warehouse》中,以上这些特征都是和传统的操作型环境对比而得出的特点。由于操作性环境不具备上述特征无法满足需求,所以inmon的数据仓库才得以应运而生。
二、Inmon模型实施步骤整体过程抽象出来可以分为两步,分别是抽出(从操作型环境到数据仓库)和迁入(数据模型的建设)。
第1步:抽出——从操作型环境到数据仓库这个过程简单来理解就是有很多熊猫分布在北京、天津、河北等地方,但是由于熊猫不适合生存在这些地方,需要把他们整体迁移到四川。第一步需要把熊猫们从现有地方抽出来。但在这个过程中会有很多问题,例如:熊猫长得比较像无法区分、熊猫的身高体重需要统一标准去度量,以便我们更高的去搬运。
回到我们真实的场景中,由于在抽出数据的过程中会遇到如下问题,需要重点去考虑:

  • 命名规范:例如相同的数据以不同名字存在不同地方;相同数据在不同地方用相同方式标注;相同数据相同名字用了不同度量
  • 编码规范:例如有的性别维值是“男女”,有的是“f/m;有的是cm,有的是英寸
  • 存储适配:不同的操作系统有不同的格式存储,有的在DB2中,有的在VSAM中
所以相应的,我们需要去解决以下问题:
  • 去除纯粹用于操作系统型环境中的数据
  • 企业模型的关键字结构中增加时间元素
稳定性分析:根据各个属性是否经常变化,而把属性进行拆分,很少变化、不时变化、经常变化。
第2步:数据模型的建设终于把熊猫们从各个地方抽离出来了,那么如何把他们迁入他们最需要去的四川呢?是囫囵吞枣把熊猫们塞到四川呢?还是要先对他们进行分类(幼崽熊猫、青年熊猫、老年熊猫)分别进行有针对性的管理呢?