数据清洗也叫数据清理,是指从数据库或数据表中更正和删除不准确数据记录的过程 。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录 。
通过有效的数据清洗,能够确保所有数据集应保持一致并且没有任何错误,为以后数据的使用和分析提供支撑 。
文章插图
数据清洗分几个步骤?
数据清洗是数据分析过程中一个非常重要的环节,数据清洗的结果直接关系到模型效果和最终结论 。在实际中,数据清洗通常会占数据分析整个过程的50%-80%的时间 。下面介绍以下数据清洗主要的步骤和任务 。
1.数据预处理阶段
该阶段的主要任务是将数据导入数据库中,然后查看数据:对数据有个基本的了解,并且初步发现一些问题,为之后的处理做准备 。
2.缺失值清洗
缺失值是最常见的数据问题,处理缺失值的方法:
(1).确定缺失值的范围:对每个字段计算其缺失值的比例,然后按照缺失比例和字段的重要性,采用以下策略:
(2).去除不需要的字段:直接删掉(建议每做一次清洗前都备份以下)
(3).填充缺失内容:对于缺失值的填充有以下三种方法
以业务知识、常识或经验推测其缺失值并填充
用同一指标的计算机结果(均值、中位数、众数等)填充缺失值
以不同指标的计算机结果填充缺失值(比如数据本身和它的其他数据相关,比如身份证号的生日那一部分)
(4).重新取数:对于比较重要且缺失率比较高的,考虑重新从其他渠道再取一次数据 。
3.格式内容清洗
(1) 时间、日期、数值、全半角等显示格式不一致
将其处理成一致的某种格式即可
(2)内容中有不该存在的字符
比如空格或者身份证号出现汉字,这种典型的不合理字符 。需要半自动校验半人工方式来找出可能存在的问题,并去除不合理字符 。
(3) 出现不符合该字段的内容
比如姓名写成了性别这种问题 。该问题特殊性在于:不能简单的用删除来处理,因为成因有可能是人工填写错误,也有可能是前端设计没有校验,还有可能是导入数据时部分或全部存在列没有对齐的问题,因此要详细识别问题类型 。
4.逻辑错误清洗
【数据清洗是什么,数据清洗分几个步骤?】
(1)去重
有的时候去重不是简单的删除就可以的 。
(2)去除不合理值
比如有的人填表随便填,年龄写190,就明显不合理,这种数据有两种方式:一种直接删除;一种直接按缺失值处理 。
(3)修正矛盾内容
比如身份证号中有的数据可以和其他字段验证的,比如年龄,有时候身份证号的年龄和年龄字段中的年龄矛盾,这种就需要根据字段的数据来源,看哪个字段更可靠,去除或者重置不可靠的字段 。
5.非需求数据清洗(也就是不需要的字段)
建议:如果一点都无关可以删了,其他的除非数据量大到不删除字段就没办法处理的程度,那么能不删就不删 。尽量勤备份 。
总之勤备份,多观察,选择合适的方法对数据进行处理 。
- 解雨臣结局,盗墓笔记中的解雨臣最后结局是什么?
- 张志中是英国足球选手张伯伦的外号 张志中是什么意思
- 我很爱你, 5620是什么意思
- 一个动作大片播放器,当时的性知识处理器 快播是什么意思
- 蜘蛛侠 四百大妈是spiderman的音译 四百大妈是什么梗
- 中国香港暴徒青年人使用私刑 私刑是什么意思
- 被炒鱿鱼拥有被辞退的含意 炒鱿鱼是什么梗
- 《炉石传说》军需官徐锦江为在我国著名演员名称 徐锦江是什么梗
- 英雄联盟中的梗,指2019年msi比赛中,ig仅用时15分5 1577是什么意思
- 葡萄牙球星德科“农民”外号 农民是什么梗