我对引导测试有疑问。最近,我分别在测试组和对照组中设计了一个约40万用户的实验。我尝试测试的一项指标是在特定页面上铺砌视图差异的平均值。当我使用传统的t检验时,我得到了一个正常的置信区间,其p值小于0.0001。然后,我尝试使用该类中介绍的bootstrap方法。我所做的是取大约10,000个样本,并进行了100,000次替换测试,以计算测试组与对照组之间的平均差异。然后我得到的p值大到0.9。我检查了我的代码,一切看起来都很好。有人对此差异有想法吗?
这是t检验的结果 enter image description here
这里是mean_diff的分布,假设null是正确的: enter image description here