应用错误收集

我对引导测试有疑问。最近，我分别在测试组和对照组中设计了一个约40万用户的实验。我尝试测试的一项指标是在特定页面上铺砌视图差异的平均值。当我使用传统的t检验时，我得到了一个正常的置信区间，其p值小于0.0001。然后，我尝试使用该类中介绍的bootstrap方法。我所做的是取大约10,000个样本，并进行了100,000次替换测试，以计算测试组与对照组之间的平均差异。然后我得到的p值大到0.9。我检查了我的代码，一切看起来都很好。有人对此差异有想法吗？

这是t检验的结果 enter image description here

这里是mean_diff的分布，假设null是正确的： enter image description here

引导程序A / B测试

0 个答案: