考虑我有四个相同的路由器A,B,C和D,运行busybox和ptpd的情况。 A和B通过电缆1连接; C和D通过电缆2连接。我在路由器A和C上有一个小的C程序,它通过UDP向相对的路由器发送一个非常小的数据包,我使用pcap来检测数据包发送的次数和时间它到达另一端,并计算了其中一千个测试的平均值和偏差。
如何判断这些电缆是否不同? 显然如果一个是500μs而另一个是10ms,它们就不同了。但是,如果一个的平均值为200μs,标准偏差为8,而另一个的结果平均为210μs,标准偏差为10,那么它们的可能性是多少呢?我应该做什么计算来测试这个?而且,从更技术性的角度来看,延迟的预期变化是什么?
我理解任何中间交换机,集线器,路由器等都会增加延迟和可变性,但如果它们通过单根电缆直接连接,那么正常的方差是什么?
编辑:只是澄清一点 - 这不仅仅是一个统计问题。我可以使用t检验来确定差异的可能性(谢谢),但我也想知道通常可以将多少差异归因于网络设备中的不同质量。例如,如果两个装置的平均值分别为208.4和208.5,我怀疑无论t检测是什么,电缆都是相同的,差异来自测试机器。还是我错了?电缆通常会有少量变化吗?我不知道 - 延迟之间的正常差异是什么?我需要通过什么测试来区分电缆和设备的差异? (我无法切换电缆)
答案 0 :(得分:3)
首先,您需要一本关于统计假设检验的入门读物。
然后,有几种方法可以回答你的问题,但最经典的方法是考虑观察到的延迟是一个真实的变量(让我们称之为T,时间),其中有一个由行为解释的非随机成分每条电缆(让我们称之为C,电缆)以及你无法解释的随机组件,可能来自随机波动或你忘记考虑的其他事情(让我们称之为E,以防错误)。
然后,您将对电缆A-B进行一系列观察,您的模型是:
T1_i = C1 + E1_i
如果你认为电缆的贡献是固定的,只有随机变量E1正在改变。
您还将对电缆C-D进行一系列观察,您的模型是:
T2_i = C2 + E2_i
如果你认为电缆的贡献是固定的,只有随机变量E2正在改变。
现在,你已经解决了。您将确保消除所有系统影响,因此E1和E2确实是波动。在这些条件下,你可以假设它们是正常的(高斯)。
使用此模型,您可以使用独立的双样本t检验来检查C1和C2是否与您预先设置的置信度不同。
答案 1 :(得分:0)
老实说,我不认为统计数据会对你在这里做的事情做出很大贡献。收集数据的成本基本上为零,您可以收集任意大量的数据。通过每根电缆发射几百万亿个数据包,然后以相同的比例绘制两个直方图上的延迟。如果你看不出差异,那么可能没有意义。
摘要统计信息会破坏信息。无论如何人们可能想要使用它们有很多原因,但我认为它们在这里并不是那么有用。如果你想要来学习统计数据,我当然会赞同这一点 - 我认为统计素养对于那些希望能够告诉别人何时给他们提供一系列废话的人来说是一项基本技能。但是如果你只是想了解这两条电缆之间的延迟差异,那么一对完善的直方图将会提供更多的信息。
答案 2 :(得分:0)
你想要的是双样本t检验。您不需要对您担心的典型方差做出任何假设,它们都包含在测试中。请找到相应的Wiki页面here。然而,统计上不同,不一定与经济上不同。您可以确认两个路由器之间的延迟时间确实不同,但不同的重要因素是什么?很难说在不了解你的情况的情况下,但要警惕在统计杂草中走得太远。