数据仓库|数字时代,你还不了解数据仓库吗?

【数据仓库|数字时代,你还不了解数据仓库吗?】数据仓库|数字时代,你还不了解数据仓库吗?

文章图片

数据仓库|数字时代,你还不了解数据仓库吗?

文章图片

数据仓库|数字时代,你还不了解数据仓库吗?

事实上 , 很多人在看到数据仓库的第一眼 , 就把数据仓库当成了数据库 。 当然这也很正常 , 毕竟从名字来看这两者确实区别不大 , 真正区分两者的是定位、作用等更深一层的东西 。 今天我们就来详细了解一下数据仓库 , 从概念、特点、优点等方面介绍一下 。
数据仓库的概念
数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合 , 用于支持管理决策过程 。 其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程 , 也是商业智能BI中数据仓库的主要作用 。

数据仓库就像企业的总的大仓库 , 能够存储不同来源、不同格式的数据 , 并且可以通过ETL和数据模型 , 对数据进行高质量的筛选 , 分级分类进行存储 。 具有很强的稳定性 , 不会频繁的进行增删改等操作 , 能够反应历史变化 。
用通俗的话来说就是数据仓库就像一个终端的大仓库 , 其他小仓库的各种货品会通过各种方式统一存储到这里 , 然后通过仓库位置的划分、货品的摆放进行归纳分类 , 实现规范、标准的从存放 , 到分类 , 再到使用的完整过程 。
数据仓库的特点1.主题性数据仓库是一般从用户实际需求出发 , 将不同平台的数据源按设定主题进行划分整合 , 与传统的面向事务的操作型数据库不同 , 具有较高的抽象性 。
2.集成性
数据仓库中存储的数据大部分来源于传统的数据库 , 但并不是将原有数据简单的直接导入 , 而是需要进行预处理 。 这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的 。 这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱 。 “脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合 。 数据集成是数据仓库建设中最重要 , 也是最为复杂的一步 。

3.稳定性

数据仓库中的数据主要为决策者分析提供数据依据 。 决策依据的数据是不允许进行修改的 。 即数据保存到数据仓库后 , 用户仅能通过分析工具进行查询和分析 , 而不能修改 。 数据的更新升级主要都在数据集成环节完成 , 过期的数据将在数据仓库中直接筛除 。
4.动态性数据仓库数据会随时间变化而定期更新 , 不可更新是针对应用而言 , 即用户分析处理时不更新数据 。 每隔一段固定的时间间隔后 , 抽取运行数据库系统中产生的数据 , 转换后集成到数据仓库中 。 随着时间的变化 , 数据以更高的综合层次被不断综合 , 以适应趋势分析的要求 。 当数据超过数据仓库的存储期限 , 或对分析无用时 , 从数据仓库中删除这些数据 。
数据仓库建模方式
在Kimball和Inmon两位数据仓库领域大佬不同方向的经验指导下 , 数据仓库的建模已经是一个成熟的体系 , 可以根据需求选择不同的方式 , 既有三范式 3NF 建模 , 也有维度建模比如星型或雪花型的建模方式 。

数据仓库还有着分层结构 , 每个分层结构都有各自的作用 , 比如经常看到的ODS 层、Trans 层、Dimension 层、Data Mart 层等 , 都是为了将数据从大海中进行筛选 , 从分散到集中进行高度汇总 , 形成一个个的主题 , 为后续的前端数据可视化分析提供数据的支撑 。