应用错误收集

辛普森的悖论在AB测试中意味着什么？

时间：2010-01-29 18:46:35

标签： math testing statistics ab-testing

我正在进行A / B测试，我在结果中面对辛普森的悖论（日与月对比测试的总持续时间）。

这是否意味着我的a / b测试不正确/有代表性？（一些外部因素影响了测试？）
如果是问题的迹象，请遵循哪些方向？

感谢您的大力帮助。

进一步阅读：http://en.wikipedia.org/wiki/Simpson%27s_paradox

3 个答案:

答案 0 :(得分：10)

如果没有看到确切的数据，那就很难说了。您正在测试的维度，但一般来说您希望根据未组合的数据做出决策。 This article from Microsoft给出了辛普森在软件测试中悖论的一个非常明确的例子。

您能否提供一份关于合并和未合并数据的简洁示例以及测试的简要摘要？

答案 1 :(得分：3)

如果A在个人A / B测试中明显更好，而B在总体上得分更好，那么主要意义是你不能那样聚合那些数据集。 A更好。

如果测试每天得到相同的结果，即使每天的样本量不同，也不会得到这个明确的结果。所以我认为它还意味着某些事情发生了变化。但它可能是任何东西。也许你每天测试的内容都发生了变化（也许是以一种非常微妙的方式，比如服务器速度）。或者也许你正在测试它的人发生了变化（可能是人口统计学，也许仅仅是他们的心情）。这并不意味着您的测试结果不好或无效。它只是意味着你正在测量一些正在移动的东西，这会使事情变得棘手。

我可能会错误估计或误解情况，但我认为 你没有测试A和B的次数相同 。也就是说，如果在周一你测试A 50次，B测试50次，并且在星期二你测试A 600次，B测试600次，依此类推，并且每天A得分超过B，那么我看不出你怎么能得到B节拍A的总结果。如果您的测试设置确实如此，那么您可以修复一些使您的数据更易于推理的内容。

答案 2 :(得分：1)

辛普森的悖论只发生在你的团队规模不同时。实际上，最终结果是每组结果的加权平均值（在这个权重上，悖论可能会出现）。

实际上并不是由外部因素或东西引起的。这只是因为一个群体更重要（因为群体中有更多元素）。

如果您提供更多信息，我们可能会提供更好的帮助。