本文转自:中国发展网一、什么是数据清洗?在数据治理工作中|数据治理:如何实施数据清洗,提升数据质量?
【本文转自:中国发展网一、什么是数据清洗?在数据治理工作中|数据治理:如何实施数据清洗,提升数据质量?】本文转自:中国发展网
文章图片
一、什么是数据清洗?
在数据治理工作中 , 为了彻底解决企业的数据质量历史遗留问题(数据不一致、不完整、不合规、数据冗余等) , 必须对存量数据进行改造 , 实施“数据清洗”工作 。
“数据清洗(Datacleaning)”一词 , 是数据治理领域中的专业术语 。 从字面意义上理解 , “数据清洗”就是将数据上“脏”的部分清洗干净 , 让数据变得干净整洁可用 。 从专业角度来说 , 对于企业中的存量(历史)数据 , “数据清洗”能够补充其缺失的部分、纠正或删除其不正确的部分、筛选并清除其重复多余的部分 , 最后将其整理成便于被分析和使用的“高质量数据” 。
中翰将数据清洗的工作内容总结为以下两点:
●问题数据的补充、调整;
●冗余数据的查重、映射 。
二、数据清洗的流程和策略
企业的数据质量问题经过发展多年的累积 , 清洗难度较大 。 要彻底“洗掉”企业存量数据中的“脏数据” , 且有效避免“脏数据”再次出现形成污染 , 必须按照一定的原则和方法开展实施工作 。
对此 , 中翰凭借多年的工作经验 , 不仅总结制定出了一套科学有效的实施流程和策略 , 还研发了基于中翰数据治理平台的数据清洗平台组件 , 显著提高了数据清洗改造的工作效能 。
(一)分析存量数据质量
对企业存量数据质量的分析包括数据一致性、完整性、合规性和冗余性等维度 。 原则上应借助专业的数据分析工具 , 对企业的全部数据进行质量分析 。 分析时应借用相关算法进行大数据行为分析 , 实现结果量化并进行可视化呈现(如图一) , 最终借助外部咨询专家总结问题、提出意见 , 完成《存量数据质量分析报告》的制作 , 从而有效指导数据清洗策略、规则等的制定 。
文章图片
企业存量数据质量的分析工作是否到位 , 很大程度上决定了数据清洗改造的成功与否 。
(二)制定清洗策略
企业在制定数据清洗策略时 , 要考虑两方面内容:
1.根据企业自身实际情况选择不同数据清洗模式 , 具体方法见图二:
文章图片
2.根据数据的不同类型选择有针对性的清洗方法 , 具体方法见图三:
文章图片
(三)制定清洗规则
数据清洗策略的制定属于宏观层面上工作方向的确定 , 落实到具体实施工作中 , 还需要确定一些工作细则 , 以支持实际清洗工作的顺畅有序进行 。
数据清洗规则包括清洗流程、清洗分工、清洗内容、方法手段等几个方面 , 需要具体情况具体分析 , 在此展示一些普适性工作流程(图四)和某家公司数据清洗的工作内容(图五)和分工(图六)作为示例:
文章图片
文章图片
(四)在技术支撑下实施数据清洗
准备工作完成后 , 数据清洗的实施工作需要依靠一定的技术手段来进行 。 中翰自主研发的数据治理平台 , 包含数据清洗平台组件 , 可以实现:
- 本文转自:封面新闻今天|会玩的麦当劳首次发布数字藏品 麦麦咔滋脆鸡腿堡咔滋上市,打造新一代明星级汉堡
- 本文转自:新民晚报全国第三家、华西地区首家极氪中心7月8日在成都著名潮流商圈太古里正式开...|全国第三家极氪中心亮相成都太古里
- 本文转自:海报新闻大众网·海报新闻记者 张明明 报道“是年|点赞70000+!青岛滨海学院学生用专业力量助力乡村振兴
- 本文转自:中工网新福厦高铁投用全新“四电”智能装备 工人日报-中工网记者 刘静日前|新福厦高铁投用全新“四电”智能装备
- 中国载人航天工程|“中国载人航天工程标识”已登记备案并纳入官方标志保护
- “蝴蝶效应”:一场克里米亚战争,为何最终却是中国吞下“恶果”
- 本文转自:上观新闻入伏以来|烈日当头,金山这群人为居民用电保驾护航→
- 半导体|2022中国最佳雇主榜单公布!海尔年薪24万、唯品会员工太幸福
- 有效注册商标|“数”看2022中国知识产权半年“成绩单”
- 百合|百合珠芽形成分子机制获揭示