我试图找到一个好的统计方法来比较给定值和现有值集。目前,我正在考虑现有数字的平均值,并将其与给定值进行比较。如果该值偏离平均值的50%,那么我会说它不在流量范围内。我正在使用python编程语言进行所有计算。还有其他方法可能更有效吗?
Ex:1,4,7,0,0,0是当前存在的值。
我得到了这些的意思:2
如果给定的值是10,我会说它没有了。
有没有更有效的方法?
答案 0 :(得分:1)
正如我对它的理解,你想要一些集中趋势的衡量标准。其中有三个:均值,中位数和模式。您要使用哪一个取决于您的目标和优先级。平均值非常受人们欢迎和理解。它有很多有用的统计特性。但是,它受到异常值的影响。另一方面,模式和中位数不受(异常)影响,但它们具有较少的统计使用。此外,在中位数和均值的情况下,您计算的值实际上可能不在您的数据集中,而模式将会。
这些考虑因素对您很重要?
但是,即使你选择了你喜欢的中心倾向度量,你怎么决定什么时候有什么东西"太远"出了一套?在你的问题中,你只是按百分比来做,但这可能不是最好的方法。
对于大多数问题,我可能会使用均值作为衡量集中趋势的指标,并使用标准差作为统计数据来确定数字是否超出标记。"但是其他一些东西可能对你更好。