数据|是如何坑人的?( 二 )


数据|是如何坑人的?
文章插图
除了广告投放,辛普森悖论还经常出现在各种各样的数据统计活动之中——需要算比率的统计基本都会出现,比如:
那么,如何才能避免汇总数据可能带来的坑呢?
关键记住8个字:不同性质,拆开来算。
二、坑2:误把相关当因果“啤酒与尿布”的故事大家应该都听过——通过相关性分析,商家发现啤酒的销量与尿布的销量高度正相关。于是他们在陈列上,把啤酒和尿布离得更近,以此来提高销量。
数据|是如何坑人的?
文章插图
当然,这完全是个不切实际的、杜撰的故事。(杜撰者是Teradata公司的一位经理——估计是营销经理,为了说服商家购买他家的数据服务,编的软文)而这里想说的重点是:相关性分析。
【 数据|是如何坑人的?】如今,不管是传统行业还是互联网行业,数据已成为企业内部最重要的资产之一。
而各家公司的数据分析师,几乎每天都会做的一件事就是:分析各个因素之间的相关性,并以此来找到增长方法。
比如游戏公司发现:用户玩游戏时间越长,留存往往越好,所以就重点提升新用户的游戏时长,以此大幅提升留存。
再比如便利店通过监测发现:人们逆时针环顾店内的时间占比越大,人均消费就越高,所以在装修和陈列上,就尽量引导人们逆时针行走。(因为右撇子的人更多,而一般逆时针环店能让更多商品出现在人右侧,这样拿东西更方便,也就拿得更多了)
数据|是如何坑人的?
文章插图
不可否认的是:通过相关性分析,确实能找到很多有效的增长方法。不过,过于迷信相关性,有时却会带来相反的结果。
比如某社交APP想提高留存。
他们发现:用户发消息的条数,与留存的相关性系数是最高的。
不仅如此,他们还发现:消息条数超过500的用户群体,与没有超过500的用户群体,留存情况出现了断崖式的差异。(这里的“500”,通常被称为“魔法数字”)
于是,为提高留存,团队就提出:假如我们设法提升新用户发消息的条数,尽量使之超过500,就可以明显提高留存了。
再于是,他们就通过设置“阶段性有奖任务”(发消息到一定条数,就会触发获奖提示,并告知下一个有奖任务),将所有新用户的消息条数都给拉了上去,并基本超过500。
然而,最后的结果却是:虽然整体的短期留存上去了,但整体的长期留存反而下降了。
为什么会这样?明明消息条数和留存的相关性是最高的呀…
其实,这就是典型的误把相关当因果,甚至是因果倒置——不是因为条数多,所以才留存好,而更多是因为留存好,所以才条数多。
上述的方案,虽然短期能通过利益提高留存,但对真正愿意使用产品的用户来说,获奖提示可能是一种打扰。
另一方面,利益的刺激会带动更多非目标用户(羊毛党)下载和使用APP,拉低用户质量,所以长期留存就降了。
而最终关于留存的优化方案,其实是在广告方面:因为该APP是重点参考Instagram来做的,特点在于图像相关的功能。
但此前的广告只是模糊的说了“好玩有趣”,没有突出具体的“功能和使用场景”,所以造成用户预期与产品不符,留存就不高的情况。
有趣的是:在之前数据分析的结果中,广告与留存的相关系数并不算很高。
三、坑3:只信看得见的数据如果说上述两个坑,分别是因为对数据和业务不够理解才掉进去的,那第3个坑,可能就是越理解数据和业务,就越容易掉进去。在以往的文章中我也说过:数据最大的问题,是它只能显示有数据的信息,而不能显示没有数据的信息。