设计电子邮件A / B测试/拆分测试

时间:2016-01-10 19:13:47

标签: ab-testing abtest

我有10,000个过期的客户电子邮件地址。我想给他们发送一封折扣电子邮件,以便重新加入他们的会员资格。

我想进行A / B测试以提高转换率。

我找到了计算统计显着性的工具,例如 https://vwo.com/ab-split-test-significance-calculator/

这有很多电子邮件作为变量。

当我提前设置测试时,如何知道每次测试中要发送多少封电子邮件?

我可以运行多少次测试(最多10,000次)是有限的 - 所以我不能让所有测试都运行多年 - 当它完成时它已基本完成。我需要最大限度地提高转化次数。

让我们说我们每次测试100个用户进行10次测试(作为2,000个用户的分割测试)。

如果我进行一次A / B测试并且一次转换更多但是没有统计意义 - 我可以采取更大的转换项目,假设它至少同样好并继续前进吗?

我已经阅读 - 不记得在哪里 - 您应该在每次测试之前设置测试持续时间。因此,如果我修复了100封电子邮件 - 并且它没有统计意义 - 我会忽略它吗?选择更好的加工项目有什么害处? (据推测,如果在100项之后它没有统计意义,那么它的交易并不是那么大)?

THX

2 个答案:

答案 0 :(得分:2)

理解有意义的是它既是样本的大小,也是差异的函数。差异越大,单纯机会造成的可能性就越小。除了使用重要性(alpha)和强度(beta)之外,我不熟悉定性方法,并了解数据集支持的概率。最终,您决定是否以70%alpha进行测试。 (对于emial来说可能还可以。)

答案 1 :(得分:1)

[考虑到评论的大小限制]

300听起来像是一个合理的数字。看here:这模拟了一个控件(黑色)和两个变体(红色和绿色)的实验我运行这个模拟95%显着性和90%强度。实线是测试统计的累积速率(在这种情况下转换到下一页的速率),密集的虚线是样本大小,而sparce虚线是样本的大小,这将使观察到的差异如此随着时间的推移,意义重大如您所见,在开始时,由于样本量较小,对照和变体测量之间的差异会有所不同,并且根据需要改变显着的样本量。然而,随着措施开始趋于稳定,有意义的样本量也是如此。在某些时候,重要的样本大小与实际大小相交并保持不变。这就是您可以安全地调用所选择的重要性和强度级别的测试点。红色变体显示出对照的更大降解(从0.1到约0.06,即~40%下降),因此其样品大小在不到250次试验(红色虚线交叉处的红点)处达到显着性。绿色变体显示出一半的下降,并且需要更大的样本大小~1100(绿色虚线交叉处的绿点)。希望这有帮助!