当toB产品经理遇到数据分析( 三 )
1)首先要进行数据清洗 , 主要是删除原始数据集中的无关数据、重复数据 , 平滑噪声数据 , 处理缺失值、异常值等 , 让数据变得“干净” 。
2)缺失值处理 , 处理缺失值的方法可分为三类:删除记录、数据插补和不处理 。 其中常用的数据插补方法见下表:
文章图片
其中 , 插值有两个比较重要的是拉格朗日插值和牛顿插值 。
3)异常值处理
文章图片
4)数据变换
主要是对数据进行规范化的操作 , 将数据转换成“适当的”格式 , 以适用于挖掘任务及算法的需要 。 会涉及到归一化处理、属性构造、小波变换等方式 , 从而达到数据使用的标准 。
5)数据规约
数据规约是将海量数据进行规约 , 规约之后的数据仍接近于保持原数据的完整性 , 但数据量小得多 。 通过数据规约 , 可以达到:
- 苹果|苹果最巅峰产品就是8,之后的产品,多少都有出现问题
- 发现最小白矮星,其大小相当于月亮,这让科学家很兴奋
- 任正非|假如美团外卖关闭了,对当今社会来说是利大于弊?还是弊大于利?
- 自动驾驶|华为首秀自动驾驶,王兴:特斯拉遇到技术与忽悠能力相当的对手了
- 业务|传统企业里,产品经理失去了话语权
- 腾讯|投出公司的总市值顶两个科创板,腾讯在给哪些企业当“后台”?
- 努比亚|16+512G存储,突然降了1500!有50倍变焦+5nm处理器,当真值得
- 马化腾|反垄断当前,小马哥见机行事:鹅厂只是一家普通公司,随时被取代
- 联想|司马南没告诉你们,当年联想的使命根本不是研发,而是赚钱养计算所
- 交汇点讯 近日|创新担当!紫金山实验室获两项全国级科技大奖