假设检验以确定平均值是否更大

时间:2017-05-28 09:19:09

标签: performance statistics mean p-value hypothesis-test

我有一个测试Chrome浏览器版本(遥测)的性能测试套件。我试图确定一个版本是否比给定测试更快/更慢或与另一个版本没有显着差异。

对于每次测试运行,我都会获得:avg,std,count,max,min,sum。

我可以比较两个测试运行(例如两个浏览器之间)和我给出:delta avg,%delta avg,delta std,%delta std,...等。我也给出了p值(概率)直方图没有显着差异),z得分(又名标准得分:直方图平均值和参考直方图平均值之间的标准偏差数)和U统计量(Mann-Whitney U产生和消耗的数量)假设检验)。

对于这些测试统计数据,我怎么能用X%确定一个浏览器比另一个浏览器更慢/更快或与另一个不同?

我在考虑只检查p值<如果是这样的话,比较avgs。但这似乎太简单了。

任何帮助都非常感激。

更新

如果我重新运行测试,我得到两个浏览器之间的%delta平均值+/- 10%,所以查看平均值和p值是不够的。

1 个答案:

答案 0 :(得分:0)

首先,您必须选择要执行的测试类型(参数或非参数)。我不会使用z-test,因为我认为你估计了std。

  1. 如果您的数据正常且方差相等,则可以执行t-test(参数化)。如果他们没有相同的方差,你可以使用韦尔奇的t检验。
  2. 如果它们不正常,您应该执行Mann-Whitney test(非参数)。然而,只有当分布彼此不同而不是它们的手段时,mann-whitney才会进行测试。如果你很幸运,他们有相同的差异,那么你可以推断出平均值。
  3. 确保您使用的统计软件正在执行单向测试,因此您实际上可以看到哪个浏览器更慢/更快。注意如果你拒绝假设avg(X)> avg(Y)这一事实并不意味着avg(Y)> avg(X)。这意味着统计平均(Y)> =平均(X)。

    最后,您必须使用X置信水平执行测试,以确保您的结果X%。为了说明这一点,检查p值是否为<1-X。如果您先进行常态检验然后进行t检验,则无效,那么您对结果的确定性不到X%!

    使用您可用的值,您可以执行上述所有测试。