当toB产品经理遇到数据分析( 三 )


1)首先要进行数据清洗 , 主要是删除原始数据集中的无关数据、重复数据 , 平滑噪声数据 , 处理缺失值、异常值等 , 让数据变得“干净” 。
2)缺失值处理 , 处理缺失值的方法可分为三类:删除记录、数据插补和不处理 。 其中常用的数据插补方法见下表:
当toB产品经理遇到数据分析
文章图片
其中 , 插值有两个比较重要的是拉格朗日插值和牛顿插值 。
3)异常值处理
当toB产品经理遇到数据分析
文章图片
4)数据变换
主要是对数据进行规范化的操作 , 将数据转换成“适当的”格式 , 以适用于挖掘任务及算法的需要 。 会涉及到归一化处理、属性构造、小波变换等方式 , 从而达到数据使用的标准 。
5)数据规约
数据规约是将海量数据进行规约 , 规约之后的数据仍接近于保持原数据的完整性 , 但数据量小得多 。 通过数据规约 , 可以达到: