我有一个测试Chrome浏览器版本(遥测)的性能测试套件。我试图确定一个版本是否比给定测试更快/更慢或与另一个版本没有显着差异。
对于每次测试运行,我都会获得:avg,std,count,max,min,sum。
我可以比较两个测试运行(例如两个浏览器之间)和我给出:delta avg,%delta avg,delta std,%delta std,...等。我也给出了p值(概率)直方图没有显着差异),z得分(又名标准得分:直方图平均值和参考直方图平均值之间的标准偏差数)和U统计量(Mann-Whitney U产生和消耗的数量)假设检验)。
对于这些测试统计数据,我怎么能用X%确定一个浏览器比另一个浏览器更慢/更快或与另一个不同?
我在考虑只检查p值<如果是这样的话,比较avgs。但这似乎太简单了。
任何帮助都非常感激。
更新
如果我重新运行测试,我得到两个浏览器之间的%delta平均值+/- 10%,所以查看平均值和p值是不够的。
答案 0 :(得分:0)
首先,您必须选择要执行的测试类型(参数或非参数)。我不会使用z-test,因为我认为你估计了std。
确保您使用的统计软件正在执行单向测试,因此您实际上可以看到哪个浏览器更慢/更快。注意如果你拒绝假设avg(X)> avg(Y)这一事实并不意味着avg(Y)> avg(X)。这意味着统计平均(Y)> =平均(X)。
最后,您必须使用X置信水平执行测试,以确保您的结果X%。为了说明这一点,检查p值是否为<1-X。如果您先进行常态检验然后进行t检验,则无效,那么您对结果的确定性不到X%!
使用您可用的值,您可以执行上述所有测试。