模型|10分钟帮你清晰理解「Inmon数据仓库建设」( 三 )


第二步:考虑各种因素的核心物理I/O的使用情况。
物理IO就是将数据从外部存储器调入计算器,或将数据从计算器送到外部存储器。为啥要进行物理IO的考虑?
为什么要考虑这一步?首先数据模型输出的都是表,每张表上承载的数据是有限的,所以需要通过表和表之间的关联进行关联。关联的方式就显得异常重要,如何设计表和表之间的链接,显得尤为重要。如果设计好了可以减少访问次数,降低IO;如果设计不好就会造成数据冗余,访问困难,会提升IO。
如何进行规范化从而降低物理IO?
数据在计算机和外部存储之间的传送以块为单位。从性能来看,物理IO重要是因为:存储器和计算器间的数据传输速度比计算器运算速度要慢2-3个数量级。物理IO是影响性能的主要因素。那么如何进行规范化降低物理IO,可以根据情况使用如下方式:

  1. 数据数组:数据放在数组的一行中,这样可以一次性去获取所需数据。
  2. 合并表:常用数据合并为一张表
  3. 选择冗余:特意引入冗余数据。常用信息散落各个表中,便于查看
  4. 分离数据:从访问次数这个角度把一张表中的数据分为高频数据和低频数据。分别建一张高频表和一张低频表
  5. 导出数据:生成一个字段来存储计算出的数据
  6. 预格式化
  7. 人工关系
  8. 预连接表
三、Inmon模型适用范围Inmon模型的特点是:开发进度慢,实施成本高,建设周期很长。尤其是建设前期需要花费大量时间,后期投入相对比较小,对开发人员的要求比较高,一般会选择专家团队进行开发,维护起来相对而言比较容易。
适合对设计科学性和规范性较高的企业,在业务模式较固定的行业应用较好,比如金融、电信、石油等行业。
四、Inmon模型小结优点:可以系统性的满足企业需求。因为Inmon采用的思路是自上而下的的建设方法,统一接入系统元数据,统一根据业务部门需求建设数据集市。因为建设较为规范,所以后期的维护成本非常小
缺点:瀑布式建设,前期建设人力(需要专家团队建设)、资源等投入很大。由于它的思路是从数据源头进行系统性的全面建设,一次性接入所有数据,打通所有数据,建好所有模型,所以建设的代价很大。
本文由 @数据产品高远 原创发布于人人都是产品经理,未经许可,禁止转载
【 模型|10分钟帮你清晰理解「Inmon数据仓库建设」】题图来自 Unsplash,基于CC0协议