在数据驱动时代,不管是在产品功能迭代还是策略决策时都需要数据的支撑。那么,当我们准备上线一个新功能或者策略时,如何评估新老版本优劣,即数据的可量化就成了问题。这个时候就需要引入 A/B Test 了。,A/B Test 的概念来源于生物医学的双盲测试,双盲测试中病人被随机分成两组,在不知情的情况下分别给予安慰剂和测试用药,经过一段时间的实验后再来比较这两组病人的表现是否具有显著的差异,从而决定测试用药是否有效。,在互联网行业中,在产品正式迭代发版之前,将 Web 或 App 界面或流程以同一个目的制定两个或多个方案,在同一时间维度,将流量对应分成若干个组,在保证每组用户特征相同(相似)的前提下,展示给用户不同的设计方案,收集各组的用户体验数据和业务数据,最后分析评估出最好版本,科学的进行决策。,
,转转 AB Test 系统的核心功能主要包含五个部分:,
,
,实验基本信息,
,实验配置信息,
,实验策略配置,
,指标分为「事件指标」和「复合指标」两种类型。事件指标通过埋点事件配置统计,复合指标通过基础的事件指标进行四则运算生成。,
,
,白名单功能提供统一的白名单创建与管理,用于实验配置时给相关实验组添加白名单,作用与分流服务,方便业务实验开发测试时通过配置白名单直接进入相应的实验组。,
,实验报告是针对单个实验,配置的核心指标以及相关指标一个统计性的数据报告说明。,实验ID:该实验的实验ID。,实验名称:该实验的实验名称。,开始时间:该实验正式上线的时间。,运行天数:该实验从上线至今/结束前的运行天数。,操作记录:记录这个实验的操作变化记录,包含流量分配、核心指标修改、实验暂停/上线等。,查看配置:查看这个实验的配置信息。,
,整体-总实验用户数:实验上线至今/结束前共参与实验的用户数,按照分流标识进行统计。,分组-总实验用户数:各个分组实验上线至今/结束前共参与实验的用户数,按照分流标识进行统计。,总实验用户占比:「分组-总实验用户数」 / 「整体 - 总实验用户数」* 100%。,流量分配:创建实验时,流量的分配比例。,核心指标值:创建实验时,配置的「核心指标」对应的数值,这里会根据【指标管理】中配置的数值方式与小数位数进行显示。,统计学校验:用于描述试验组指标相比于对照组的提升范围。随着参与试验的样本量逐渐增加,数据指标波动趋于稳定,置信区间会逐渐收窄。一般来说,置信区间选择 95%。,统计功效:统计功效用于描述通过试验能检测出试验结果真实可靠的概率;一般用于衡量实验不显著时,是否需要继续扩大样本继续实验。一般当差异不显著时,统计功效小于 80%,需要继续做实验,当差异不显著是,统计功效大于 80%,说明基本对照组与实验组没有差异。,实验结论:实验结论根据「核心指标」与「统计功效」得出实验结论。,
,主要目的衡量流量分配是否均匀,指标为「新进组用户数」:当天第一次参与实验的用户数。,
,实验UV:同「分组-总实验用户数」,各个分组实验上线至今/结束前共参与实验的用户数,按照分流标识进行统计。,指标名称:所选的指标对应的名称。,差异绝对值:该分组对应对照组在该指标上的差异的值,举例:如对照组订单数为 50,实验组为 100, 这里的差异绝对值为 100 - 50 = 50。,差异相对值:该分组对应对照组在该指标上的差异的百分比,举例:如对照组订单数为 50,实验组为 100, 这里的差异绝对值为(100 - 50)/ 50 = 100%。,置信区间:核心指标通过实验配置的置信水平统计计算。,
,分流服务实时同步已上线运行的实验配置,业务调用方通过实验ID+分流标识获取实验的分组结果,具体实现逻辑如下:,结合转转业务的特点,使用了无层方案。所谓无层,就是每个实验都是单独一层,使用实验 id 作为种子将 1-100 的桶号进行洗牌打乱,具体实现方法如下:,如此一来确保了每个实验都单独占有所有流量,可以取任意组的流量进行实验,但是又引进了新的问题,无层会导致同一个用户命中多个实验,即使这些实验是互斥的。,为了解决实验需要互斥的需求,后期将引入互斥实验组的概念,将互斥实验放在同一个组中,共享所有流量。具体实现逻辑如下:,新分流逻辑,新分流方案,实验的每个流程与节点都至关重要,拒绝为做实验而做实验,用心用科学来做实验,整体实验实施流程图如下图。,
,对于互联网产品而言,每次上线新版本都尤为慎重,为了衡量与判断「新上线的版本」/「现有版本」哪个版本的策略更优,通过事实的数据结合统计学原理进行科学、合理的进行决策。,实验的设计是实验最重要的一环,实验设计的好坏决定了最终实验的成功与否。,
,整体实验的设计分为四个部分:,实验基本信息,实验配置信息,注意:,实验策略设计,实验结论,"实验ID":实验的id标识,用于实验数据统计。,"实验分组":实验分组结果,用于实验版本展示的标识。,"分流用户类型" :用于实验分流的标识类型,便于精准统计 UV 类指标数据。,埋点上报格式举例:,当我们的实验在线上已经运行了一段时间之后,我们需要衡量实验整体的效果,整体实验决策的流程如下图。,
,实验报告:包含了整体实验总用户在每个实验组的流量分配情况以及「核心指标」、「相关指标」的统计学检验结果,根据实验组的核心指标相对于对照组的核心指标变化率情况、置信区间及统计功效来评估试验效果。,「核心指标」的提升/下降决定了整体实验的效果,一般我们用置信区间和统计功效来整体判断实验的结果。,注意:对于少部分比较重要的相关指标/护栏指标来说,他们是有“一票否决权”的,需要进行整体评估,平衡试验决策。,什么是置信区间?,置信区间是一种常用的区间估计方法,所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间 。对于一组给定的样本数据,其平均值为 μ,标准偏差为 σ,则其整体数据的平均值的 100(1 - α)% 置信区间为 (μ - Ζα/2σ, μ + Ζα / 2σ) ,其中 α 为非置信水平在正态分布内的覆盖面积 ,Ζα / 2 即为对应的标准分数。,为什么要计算置信区间?,在「A/B测试」的场景下,主要通过某个指标或留存的实验版本均值变化值以及置信区间来判断,在当前指标或用户留存上,实验版本是否比对照版本表现得更好。,置信水平,也称置信水平、置信系数、统计显著性,指实验组与对照组之间存在真正性能差异的概率,实验组和对照组之间衡量目标(即配置的指标)的差异不是因为随机而引起的概率。置信度使我们能够理解结果什么时候是正确的,对于大多数企业而言,一般来说,置信度高于 95% 都可以理解为实验结果是正确的。因此,默认情况下,「A/B测试」将置信区间参数值设置为 95%。,计算逻辑,
,
,举例:实验核心指标是「人均支付金额」,需要计算 2022-06-01~2022-06-10;区间内「实验组」相对「对照组」置信区间范围,数据如下所示:,对照组:参与实验用户 239 个,累积支付金额 121392 元。,实验组:参与实验用户 640 个,累积支付金额 504795 元。,
,例如:某个区间内,
,实验到期下线分为两种情况:未到期决策下线、到期自动下线。,
,本文主要分享了:,从了解 AB、如何开发 AB 平台、如何实施 AB 实验和未来的规划迭代四个方面介绍了 A/B Test 在转转的落地与应用。在互联网产品玲琅满目下,如何吸引新用户,留住老用户以及试错成本越来越高的场景下,如何通过 A/B Test 小流量、多方案,快速迭代、决策、优化产品变得越来越重要。AB 平台的建设还有很长的路要走。,未来转转会针对痛点与不足进行持续优化,输出更多的技术实践给大家,一起进步成长。
© 版权声明
文章版权归作者所有,未经允许请勿转载。