神策数据推出A/B测试方法,更符合实际场景

数智大号 2023-07-26 14:07:26

A/B测试 本质上,是以数据驱动为核心,控制单一变量进行科学决策的试验。大多数典型的 A/B 测试工具按照这一原则设计和包装测试类型。

在为多个客户服务的实践中,神策数据发现,在某些场景中,需要评估小流量策略的效果,特别是在复杂的策略和垂直场景中,业务面临更大的挑战。因此,神策数据推出了一种更符合实际场景的科学测试方法,涵盖了更多的业务场景-时间片旋转测试和多人群测试,帮助企业更高效、更方便、更节省测试成本。

一、时间片轮转试验

时间片旋转试验可以在不同的时间段接触到指定的用户,并使用不同的操作策略,以确保时间和空间中测试策略的一致性。操作学生可以在测试中设置不同粒度的时间切片,最小限度 1 小时,最大 24 小时,将 A、B 两组测试策略生效的时间戳映射到时间切片上,用户将在不同的时间段内获得不同的策略体验。

在设置测试时,操作学生需要每天翻转测试的第一个时间片,以确保测试策略在不同时间片上的均匀分布。以及 A、B 对每个时间片上的指标数据进行抽样统计,以评估试验的整体显著效果。

以下场景通常采用时间片轮转试验:

1、产品涉及多端用户,每个主体之间可能会产生相互影响的场景

多端用户场景是指同时涉及多个角色的场景,如内容推荐场景涉及作者和用户;外卖场景涉及订购用户、骑手和企业;出租车业务涉及司机和乘客;直播业务涉及主播和观众;基金证券场景涉及基金经理、用户等。

在上述多端用户场景中,如果单一和独立的对象被随机转移,测试策略可能会因一对多的关系而相互影响。具体来说,在出租车场景中,如果试验只针对乘客分流,同一个司机可能会收到试验组 A 乘客的订单也收到了测试小组 B 乘客的订单导致平台无法有效评估某些订单的响应率等指标。在内容推荐场景中,如果只分流普通用户,则可以同时推荐相同的推荐内容 A 组和 B 运营商将无法评估内容制作人的相关指标,如发布量、投稿率等。

若采用多端同时分流,例如将司机和乘客分成 A、B 两组。A 组司机只能匹配 A 组订单,B 组司机只匹配 B 组订单,虽然这种方法可以隔离分流对象,但会减少匹配对象,无法准确评估所有用户的收入。因为 A 订单最初可以发送给所有司机抢劫,但现在只有一半的司机有资格抢劫,测试密度与所有用户不一致,无法评估所有推广的效果。

可以看出,上述两种解决方案都不是最好的测试解决方案。多端用户场景广泛存在于社交网络、内容创作、电子商务等领域。使用时间片旋转测试可以很好地解决上述问题。同时,在切片中保持相同的策略,并在下一次切片中转向另一个策略,尽可能多地收集测试结果数据,并尽快得出测试结论。

2、定价策略等体验场景需要保证同时空用户的一致性

例如,在金融和电子商务行业,在商品定价策略的实验中,企业需要确保所有用户在同一地区/同一时间看到的商品价格或优惠策略是一致的。如果只对用户进行单一分组,可能会导致同一地区用户看到的商品价格不一致、政策违规或客户投诉。

3、产品流量相对较小,不适合用户随机转移场景

A/B 测试通常基于一定的统计样本,在产品启动初期或产品非主要功能界面进行测试,但没有足够的流量快速验证。为了积累样本量,通常需要延长试验周期以获得足够的流量,但延长试验周期可能会导致幸存者偏差。此外,在流量有限的情况下,用户分流的概率也会导致分流不均匀。快速验证可以在多个时间片中积累更多的流量。

需要注意的是,时间片旋转实验不适合长延迟场景,如长途汽车调度,时间片尺寸不易划分;不适合网络及时性强的场景,如红包共享、优惠券分发等,因为用户在不同时间打开共享链接的内容应相同;不适合前端感知功能测试,因为操作人员需要确保用户在不同时间的产品体验,页面样式不能频繁更改。

在传统 A/B 在测试过程中,操作人员通常只能转移单个流量因子(测试对象)。时间片旋转试验是在时间维度上均匀分割,不同的时间片段反映了不同的测试策略,使所有参与测试的用户在同一时间、同一空间下保持一致的策略,可以有效解决多端用户测试场景中的组间干扰和小流量容易导致分流不均匀的问题。

二、多人群试验

多人群测试可以帮助企业发布不同的测试策略,测试不同的人群,有效地观察结果,验证人群差异,满足各种个性化的操作场景,找到最佳的增长计划组合。操作人员可以设置多个人群,每个人群都可以设置 1 到 10 一个测试组,人群之间的相互排斥关系,确保一个用户同时只进入一个人群;您还可以比较多个人群的多个策略结果,节省多个测试的等待时间和多个测试的配置成本。

多人群测试通常适用于并行测试多个受众群体的场景和差异化操作场景。

1、并行测试多个受众群体的场景

在这种情况下,当配置同一个多人群测试时,多个人群可以并行测试新旧策略,共同观察结果,大大节省了时间成本和多个测试的配置成本。

比如,某 App 优化主页推荐内容算法,重点关注未注册人群和注册老用户,建立 2 个人组,分别设置新旧算法,确保重点人群分流均匀稳定,同时在报告中比较人群数据结果。

2、实现差异化操作的便利场景

对于运营场景,多人群测试可以在线长期运行,不同的人群策略可以区分,如会员系统的建设和运营策略、新老客户运营等,帮助业务人员找到最佳的营销策略,改善用户体验。

例如,对于不同的城市用户,结合其城市消费特点,运营商可以向不同类别的商品发放不同数量的优惠券,以找到不同特征用户的最佳营销策略;为不同行业、性别和年龄段的客户设计差异化的网页设计方案,通过数据比较验证不同特征群体之间的认知差异和行为差异 。

多人群试验的主要目的是更好地经营人群,对不同人群有更深入的了解,提供更贴心、更准确的产品和服务。

神策 A/B 测试一直致力于为客户提供能够覆盖更多业务场景和工作流的测试工具,帮助客户降低测试门槛和成本,快速迭代测试,以数据推动业务增长。未来,将继续提供越来越方便的测试类型,请期待它。

0 阅读:3

数智大号

简介:聚焦数字化转型,传播数智化成功案例、分享新行业实践