决策|六大环节,教你如何从0到1搭建一场A/B测试( 二 )


某个视频推荐列表试验中,核心指标是人均播放视频数量,驱动指标是完播率、人均观看时长,通过核心指标和多个驱动指标的配合来进行推荐算法效果的评估。
通过以上我们可以看出,驱动指标能够帮助我们从更多、更全面的角度来观察试验给业务带来的影响,尤其是当发现问题时,能够帮助我们及时分析原因、调整策略,通过不断优化达到最终的试验目的。
在确定驱动指标时,需要满足三个原则:第一,驱动指标与核心指标的目标一致,能够直接反映业务变化;第二,当指标发生变化时,能够有既定的途径和方法来优化指标,是可行动、与业务相关的;第三,驱动指标是核心指标的先导指数,需要具备足够的灵敏性,快速衡量大部分试验的效果。
3. 护栏指标护栏指标,可以理解为保护业务的指标,在实际应用过程中,护栏指标的异常可以有效反映出试验设计、基础设施、数据处理环节是否正常,能够帮助我们在评价试验效果时做出正确的权衡取舍,避免因为短期指标优化影响长期指标,从而得出值得信任的试验结果。
举个例子,我们在试验中设置一定的比例让用户命中试验分组(通常建议各组流量平均分配),实际运行中如果发现样本量和构建时的预期不一致,那么可以猜测是否是分流服务出了问题,导致可信度降低。
三、设计试验在确定试验评价指标之后,我们就可以开始进行试验设计,主要分为四个阶段:
1. 选择正确的试验主体试验主体是试验中进行分流的随机化单元,在试验时需确保分流主体与评价指标分析主体相同。 用户(通常为 user_id )是当前主流的随机化单元。如果分流主体是用户,那指标分析主体也应该是用户,例如人均会话数、人均点击量、人均支付金额等。
在实际业务场景中,可能使用其他分流主体,比如设备主体(device_id),按照设备进行随机化,意味着每台设备产生的指标数据是独立的,比如在点餐机或者自动售卖机(一般为 Android 系统)的试验场景中,不需要用户进行登录即可下单购买,那么此时试验的分流主体和分析主体就是这个独立设备,可以用每台设备的平均下单时长(完成下单的总时长/独立设备数)作为评价指标,用来衡量下单页优化效果。
除了以上两个常用的试验主体外,也会存在其他主体,例如在推荐算法试验中,可以用推荐的页面(或推荐的商品)作为试验主体单位等,在评估选择使用哪种随机化单元(分流主体)时,需要结合具体试验场景来考虑,可以重点从用户体验一致性、分流主体和评价指标主体一致性两个角度综合评估。
2. 确定试验目标受众当我们假设了一个试验并选定试验主体时,需要进一步明确试验的受众范围,也就是说需要明确哪些用户参与到试验中。通常有完全随机和定向筛选两种方式:

  • 完全随机,是指不做任何干预,所有的线上用户都是目标受众。
  • 定向筛选,是以特定的用户群体为目标。比如,某在线教育 App 的会员活动试验中,想要通过不同活动来探索和提升用户的购买转化,便将新用户设定为目标群体。
需要注意的是,当使用定向筛选圈定受众意味着当前的试验效果只对这部分用户有效,并不能代表线上全量用户应用后都具备相同显著的效果。因此,在实验结束将新 Feature 固化到线上时,需要考虑有针对性的发布策略。
3. 确定试验样本量(1)样本量并非越多越好
我们都知道试验的样本量大小对结果的精确度有直接影响,从统计学理论来讲,越大的样本量意味着有更大的几率检测出很小的变化,得出的结论信度就越高。