我有大量的数字输入,如果离群值,我想将其标记为1,如果非离群值,则将其标记为0。我有两种解决方法:
1)计算进来的数字的滚动平均值。然后,计算出计算出的数字平均值的滚动标准偏差。使用这些值,我创建了(μ±3σ)的置信区间
2)我计算输入的滚动平均值和标准偏差。利用这些值,我创建了(μ±3σ)的置信区间
哪种方法更好,为什么?
答案 0 :(得分:1)
这完全取决于您的应用程序。
话虽这么说,第二种方法看起来像是一种标准(有些人称其为“天真”)解决方案。第一种方法似乎很奇怪,而且刚刚结束:
想象只有两个交替的数字进来。比如说0和10。过一会儿,您将得到非常稳定的5 +-ε平均值(ε收敛为0)。因此,这些平均值的标准偏差将随着您的进行而变得越来越小。最终,3σ将小于5,并且从那时起所有传入的数字都将是异常值。