文章图片
ETL代表提取 , 转换和加载 。 ETL是一个用于提取数据 , 转换数据和将数据加载到最终源的过程 。 ETL遵循将数据从源系统加载到数据仓库的过程 。
执行ETL过程的步骤如下:
提取
【数据仓库|执行大数据ETL过程的步骤有哪些?】提取是第一个过程 , 其中收集来自不同来源的数据 , 如文本文件 , XML文件 , Excel文件或各种其他来源 。
转换
转换是ETL过程的第二步 , 其中所有收集的数据都已转换为相同的格式 。 根据要求 , 格式可以是任何格式 。 在该步骤中 , 将一组函数规则应用于提取的数据以将其转换为单个标准格式 。 它可能涉及以下任务:
过滤:仅将特定属性加载到数据仓库中 。
清除:使用特定的默认值填充空值 。
加入:将多个属性加入到一个属性中 。
拆分:将单个属性拆分为多个属性 。
排序:根据属性对元组进行排序 。
加载
加载是ETL过程的最后一步 。 从各种来源收集大量数据 , 转换它们 , 最后加载到数据仓库 。
ETL是从不同源系统提取数据 , 转换数据并将数据加载到数据仓库的过程 。 ETL流程需要各种利益相关方的积极参与 , 包括开发人员 , 分析师 , 测试人员 , 高级管理人员 。
ETL(提取 , 转换和加载)是一种自动化过程 , 用于从原始数据中提取分析所需的信息 , 并将其转换为可满足业务需求并将其加载到数据仓库中的格式 。 ETL通常汇总数据以减小其大小并提高特定类型分析的性能 。
ETL过程使用流水线概令 。 在这个概令中 , 一旦提取数据 , 就可以对其进行变换 , 并且在变换期间 , 可以获得新数据 , 当将修改后的数据加载到数据仓库中时 , 可以转换已提取的数据 。
- 咖啡|瑞幸咖啡大数据“杀熟”?两次报价相差近3元
- 本文转自:新华网数字经济是新一轮科技革命和产业变革新的战略机遇。|新型数据中心支持数字经济创新发展
- 数据挖掘|第二个深圳要来了?马云投240亿,刘强东砸320亿,华为也在此落户
- 芯片|大数据“扫黄”行动开始了!注意以下三个特征,你可能会“涉黄”
- arena|马天宇大骂携程吃相难看,你有被大数据杀熟过吗?
- 一加科技|删帖、封号、数据控制,巨头和资本是如何“控制”舆论的?
- 数据挖掘|o2o零售商业模式:实现零售商、品牌商、平台方三方共赢
- 零售业|IT业就业薪酬咋样?数据来了
- 本文转自:津云8月3日|李伏安:用好大数据是银行业数字化转型的核心
- 天使轮|419快讯丨研究发现:攻击者能利用Chromium浏览器书签同步功能窃取数据