应用错误收集

我有一个测试Chrome浏览器版本（遥测）的性能测试套件。我试图确定一个版本是否比给定测试更快/更慢或与另一个版本没有显着差异。

对于每次测试运行，我都会获得：avg，std，count，max，min，sum。

我可以比较两个测试运行（例如两个浏览器之间）和我给出：delta avg，％delta avg，delta std，％delta std，...等。我也给出了p值（概率）直方图没有显着差异），z得分（又名标准得分：直方图平均值和参考直方图平均值之间的标准偏差数）和U统计量（Mann-Whitney U产生和消耗的数量）假设检验）。

对于这些测试统计数据，我怎么能用X％确定一个浏览器比另一个浏览器更慢/更快或与另一个不同？

我在考虑只检查p值＆lt;如果是这样的话，比较avgs。但这似乎太简单了。

任何帮助都非常感激。

更新

如果我重新运行测试，我得到两个浏览器之间的％delta平均值+/- 10％，所以查看平均值和p值是不够的。

首先，您必须选择要执行的测试类型（参数或非参数）。我不会使用z-test，因为我认为你估计了std。

如果您的数据正常且方差相等，则可以执行t-test（参数化）。如果他们没有相同的方差，你可以使用韦尔奇的t检验。
如果它们不正常，您应该执行Mann-Whitney test（非参数）。然而，只有当分布彼此不同而不是它们的手段时，mann-whitney才会进行测试。如果你很幸运，他们有相同的差异，那么你可以推断出平均值。

确保您使用的统计软件正在执行单向测试，因此您实际上可以看到哪个浏览器更慢/更快。注意如果你拒绝假设avg（X）> avg（Y）这一事实并不意味着avg（Y）> avg（X）。这意味着统计平均（Y）> =平均（X）。

最后，您必须使用X置信水平执行测试，以确保您的结果X％。为了说明这一点，检查p值是否为<1-X。如果您先进行常态检验然后进行t检验，则无效，那么您对结果的确定性不到X％！

使用您可用的值，您可以执行上述所有测试。

假设检验以确定平均值是否更大

1 个答案: