终于有人把幸存者偏差讲明白了

导读:本文带你了解数据收集的偏差 。
作者:徐晟
来源:华章科技
终于有人把幸存者偏差讲明白了
文章图片
数据收集是一项重要的工作 , 需要投入大量精力和时间 , 这是因为数据质量直接关乎分析结论的成败 。 然而 , 错误的数据收集方法可能造成结果偏差 。
比如统计对象出现错误 , 明明应该统计数据集合A , 却统计了数据集合B 。 又比如统计对象不全面 , 只抽样了部分数据 , 却没有统计全体 , 或者忽略了数据分布存在偏斜等 。
这些错误的数据收集方法会产生两种常见的数据偏差——幸存者偏差和选择性偏差 。
01幸存者偏差
幸存者偏差指用于统计的数据仅来自幸存者 , 导致结论与实际情况存在偏差的情况 。
幸存者偏差源自一个真实故事:二战时期 , 美军统计了作战飞机的受损情况 , 他们发现 , 返航飞机各个损伤部位被击中的弹孔数不同 。 这些飞机发动机部位的弹孔数最少 , 机翼的弹孔数量最多 。 于是有人提出 , 要赶紧加固飞机机翼 , 因为这些部位更容易受到敌方炮火的攻击 。
可是 , 美国哥伦比亚大学的沃德教授立即否决了这个方案 。 沃德教授是一位统计学专家 , 他应军方要求提供相关专业建议 。 沃德指出 , 应该强化的不是机翼 , 而是发动机 。 从理论上讲 , 飞机各部位的中弹概率应该是相同的 。 发动机部位的弹孔明显偏少 , 只能说明:那些被击中引擎的飞机大多没有返航 。
这就是幸存者偏差 , 军方只看到幸存下来的飞机 , 却没有意识到它们只是一部分数据 , 不能反映飞机受损的真实情况 。
选择正确的数据样本非常重要 。 我们必须保证数据考察是全面的 , 而非其中的一部分 。 在很多场合 , 人们下意识地会做出具有幸存者偏差的选择 。
比如一个粗心的研究者在统计医学数据时 , 为图方便选择了住院病人为研究对象 , 却没有意识到这种做法可能为研究结果带来偏差——只有病人才去医院 。
一些成功学的书中提到 , 比尔·盖茨、扎克伯格、乔布斯、埃里森等成功人士都在大学退学创业 , 似乎从大学退学更有可能获得成功 。 但这只是幸存者的案例 , 我们从未听到失败者故事 , 更不能说明大学退学创业就是成功的必需特质 。
如果一项研究是通过已有的样本去研究过去某个规律 , 那就要当心了 , 因为它很有可能存在幸存者偏差 。 当我们选择已有的样本时 , 就只看到了幸存者 , 而忽略了没被统计到的样本 。
比如 , 查看公司财务报表时 , 就已经过滤掉了那些经营不善而破产的公司;查看老年人在医院的诊疗记录时 , 就默认地排除了没有活到老年的人群;统计某款手机软件的受欢迎程度 , 不自觉地排除了那些买不起手机或者从未安装过该手机软件的人 。 这样的例子比比皆是 。
之所以会产生幸存者偏差 , 是因为很多人从一开始就搞错了统计样本 , 只看到经过筛选的数据 , 但没有意识到筛选的过程 。 如果只是人为地选择部分观察数据 , 那就无法保证结论的客观性 。
要获得“全样本”数据绝非易事 。 由于认知局限 , 很多人只看见了那些能看见的现象——比如受损的飞机、就医的病人、成功的企业家、公司的报表 , 但忽略了没有看见的真相—未返航的飞机、健康的人、失败的创业者、破产的公司 , 而这些被忽略的数据同样重要 , 甚至更加重要 。
终于有人把幸存者偏差讲明白了
文章图片
02选择性偏差