终于有人把幸存者偏差讲明白了( 二 )


19世纪初期 , 人们认为统计就是要追求考察对象的大而全 , 数据越多 , 结果就越准 。 不过 , 想要考察大而全的总体 , 有时不具备操作性 。 于是一些统计学家提出了抽样的想法 , 认为只要方法得当 , 就算不考察总体 , 也能通过研究一部分有代表性的随机个体来推断出总体的特征 。
这些从总体中选出来的个体的集合 , 叫作样本 , 随机选择的动作叫作抽样 。 统计学界围绕“抽样”这件事争论了好几十年 。 直到20世纪30年代 , 抽样的科学性才被学术界逐渐认可 。
抽样是一种非常好的了解大量样本空间分布情况的方法 , 适用于大样本 。 抽样的对象要尽可能分散和有代表性 , 这样才能体现出整个样本的分布特点 。
不过 , 抽样毕竟对研究对象做了精简 , 因此它很可能存在样本选择上的偏差 , 即选择性偏差 。 比如想要调研中年男性的健康程度 , 抽样时只选了亚洲人 , 这个抽样对象显然不够全面 。 又或者 , 调研时只收集了若干人的数据 , 研究样本过少 , 因此得到的结论也不具备普适性 。
选择性偏差是在抽样时出现的一大问题 。 有时 , 人们为了证明自己的观点 , 倾向于选择特定的数据来支撑结论 , 从而忽略了其他证据 。 采用有偏差的抽样数据 , 几乎可以得到人们想要的任何结论 。
假如在调研问卷中问这样一个情感问题:“假如爱情可以重来 , 你是否还会选择和他/她在一起?”结果会如何呢?我想多数会收到“不会”的答案 。 这并不是真相 , 只是那些回复的人群可能是“有偏的” 。
因为调查问卷是自愿回复 , 所以对这个话题抱有强烈负面感受的人 , 更有可能不厌其烦地做出回应 , 那些生活幸福的人也许随手就将问卷丢进了垃圾桶 。
又比如 , 去高档的购物场所进行调研 , 会出现选择性偏差 , 因为去那里消费的人相对富有;而如果去山村调研 , 则很可能得出完全相反的结论 。
在以上的例子中 , 前者由被调查的人自行决定要不要回应 , 后者则由调查人员决定如何选取样本 , 这两种调查方法都会人为地影响统计结果 。
抽样的结论若要很好地代表整体 , 需要具备两个条件:
一是样本足够大 , 根据大数定律 , 这样的样本分布更接近总体;二是抽样方法要正确 , 确保抽样是完全随机的 , 它既不受调查者的选择影响 , 也不受被调查者的偏好影响 。采用随机抽样的方法 , 可以一定程度上消除对样本选择的偏差 。
以民意调查为例 , 我们知道 , 美国的总统选举永远是个热门话题 , 网络和媒体会密切关注 , 并跟踪报道一手资料 。 其中一个热门话题就是关于选举结果的预测 。 由于选票会涉及不同阶级、不同种族、不同利益的人和团体 , 所以要调研民众意向 , 抽样时就应该考虑兼顾各种利益团体的样本 , 否则很有可能出现带有偏差或者歧视的结论 。
为了调查民众的看法、意见和心态 , 乔治·盖洛普设计了一种盖洛普民意测验 。 他根据年龄、性别、教育程度、职业、经济收入、宗教信仰这6个标准 , 在美国各州进行抽样问卷调查或电话访谈 , 然后对统计结果做出分析 。 此方法产生于20世纪30年代 , 今天仍会被使用 , 并且有着相当高的权威性 。
总之 , 抽样要针对大样本 , 保证样本的随机性 。 如果抽样的样本很少 , 或由于其他原因导致了统计不充分 , 那么结论很可能是错误的 。
终于有人把幸存者偏差讲明白了
文章图片
小结
数据样本偏差带来了“以偏概全”的风险 , 它会得出“差之毫厘 , 谬以千里”的错误结论 。 过去 , 人们担心小样本导致统计误差;而在大数据时代 , 这个问题并不会消失 , 反而变得更加复杂 , 也更难察觉 。