在没有很好的实验指导、良好的平台支撑的情况下,大部分人都无法设计有效的AB实验,不能正确地消化这成百上千个实验指标的结果。, 根据一项调研,实际上可能有三分之一的AB实验都存在问题。对AB实验的错误解读会导致非最优决策以及对业务增长的不准确预期,从而损害公司的长期利益。,导致AB实验结果被误判的原因有很多,从有偏差的实验设计、有偏差的用户选择到有偏差的统计分析,以及试图将AB实验结果推广到实验总体、实验时间框架之外等。,本文主要基于AB实验的基本过程以及AB实验所需的基本技术要素,总结在进行AB实验的过程中,各个环节上可能存在的问题。,关于实验参与对象主要有3个问题。,在对实验参与对象随机分流的环节中有如下3个关键问题。,实验指标体系包含了两个关键问题。,在实验分析和评估环节存在的问题更多,也更加难以解决,这部分的问题往往更加个性化和多样化。前面谈到的问题,比如实验参与单元数量、随机分流、指标体系等问题可以通过建设实验平台等工具进行规避、监控和解决。实验分析和评估是针对单个实验的,每个实验从目标到指标都有自己的不同之处,不仅需要进行系统化的处理和规范,也需要具体问题具体分析。分析过程中需要对实验设计、产品特性、数据指标以及统计分析的理解相对透彻,才能更好地深入实验评估。分析和评估相关的问题总结归纳起来主要有以下3个。,1)对于统计结果理解是否正确,2)实验分析的过程是否正确,3)实验分析结果的外推是否正确如果前面实验中的每一个环节都没有问题,实验组的效果是正向的,那么实验决策决定将这个实验全量(也称发布)到所有用户。这个环节一般来说没有太大难度,在一些特定情况下会有问题,即实验结果被推广到实验的设置之外,不再有效。,通常受AB实验机会成本的限制,一般实验运行不超过两周,而进行全量实验意味着这个策略会长期作用在线上,一两周的效果是否等于1个月甚至6个月后的效果是不确定的。当进行AB实验时,除了选择正向的策略外,也需要衡量这个策略长期影响的大小。因为实验相关人员希望得到的结果是“如果我们使用某个策略,指标X将在下个季度增长?”。这种说法隐含地假定在一个两周长的实验中,测量的影响会持续一个季度,当实验效果是时间依赖时,这显然是不正确的。更为复杂的是,并不是所有的实验指标都会在实验中显示和时间的相关性。,如果没有自动化的检测手段,即使是最有经验的实验者,也很难筛选出数千个指标,寻找与时间相关的实验效果。,上面介绍的实验分析问题在很多AB实验中都没有被很好地回答,它们在AB实验中特别容易出现,并影响实验结果,最终得到的是一些错误的解读和结论。统计一个数字容易,得到可信可靠的实验结论是不容易的。我们可以很容易地统计出B组策略比A组策略的点击率高2.7%,B组策略上线之后真的可以将点击率提高2.7%吗?如果没有实验系统以及科学的实验方法,那么很难保证最终效果。,参与AB实验的人大多遇到过一个令人头疼的问题:实验的结果是正向的,全量上线后大盘数据却没有涨。这是一个复杂的系统问题,可能有多种多样的原因,除了我们上面谈到的那些影响AB实验的问题外,还有一个原因就是统计本身的概率问题。因为我们采用的是统计中的假设检验来判断实验结果,本身就存在犯错误的概率。比如我们采用95%的置信度,那么犯第一类错误的概率是5%(AB实验中,A组没有效果,而实验系统判定A组为有效果的错误是第一类错误),犯第二类错误的概率最高有95%。,实验系统中,用户设置95%的置信度,此时需要承担5%的第一类错误风险。在一切都正常的情况下,A组实验有效果,全量上线之后没有效果的风险有5%。这个情况无法避免,大约20次实验中就会出现一次。换句话说,如果20、30次实验中出现了1~2个实验,虽然实验效果正向,但是全量后没有效果,其实这是一个正常现象,在可以接受的范围内。如果做了不到10个实验,就出现了2~3个以上实验效果正向,全量后没有效果的情况,那么实验方法和系统大概率是有问题的,而且问题大概率来自本文讨论的这些问题。,本文摘编于机械工业出版社出版的《AB实验:科学归因与增长的利器》,经出版方授权发布。
© 版权声明
文章版权归作者所有,未经允许请勿转载。