我有一些统计数据。一些数据非常分散到大多数数据集中,如下所示。我想要做的是最小化数据集中高度分散的数据的影响。我想计算数据集的平均值,这样可以最大限度地减少散乱数据的影响。
My data set is as like this:
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.
如下图所示:
我需要的平均值不是46.3,而是更接近其他数据分布。 实际上,我想尽量减少89.23&平均计算中的328.42。 提前致谢
答案 0 :(得分:2)
你可能会注意到你真的不想要这个意思。这里的问题是您为数据假设的分布与实际数据不同。如果您尝试将正态分布拟合到此数据,则会得到错误的结果。您可以尝试在此数据中使用像cauchy这样的重尾分布。如果要使用正态分布,则需要过滤掉非正态样本。如果您想知道标准偏差应该是什么,您可以从上面的样本中删除所有内容,例如距平均值3个标准偏差(数字3必须取决于样本大小)。这个过程可以递归完成,去除非正常样本,直到你对标准偏差方面的离群值大小感到满意为止。
答案 1 :(得分:2)
不幸的是,一组数据的平均值就是 - 平均值。你确定这一点实际上是一个异常值吗?您的数据包含与聚类有关的单个异常值,但是如果您查看您的绘图,您会发现这些数据确实具有线性关系,因此它真的是一个异常值吗?
如果此读数确实导致您出现问题,则可以将其完全删除。除此之外,我唯一可以建议的是计算某种加权平均值而不是真实均值http://en.wikipedia.org/wiki/Weighted_mean。这样,您可以在计算平均值时为该点指定较低的权重(尽管如何选择权重值是另一回事)。这类似于加权回归,其中特定数据点与回归拟合相关联的权重较小(可能是由于某些点的不可靠性)http://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)#Weighted_linear_least_squares。
希望这会有所帮助,或者至少可以为您指出其他可以尝试追求的途径。