我试图找出数据集中的异常值。我之前使用z得分来计算。我在z得分表上使用了99%置信区间,如+/- 2.576。然而,我意识到使用中位数绝对偏差计算zscore会更好。我根据
修改了z分数0.0645*(x- median)/MAD
我的问题是我不确定在修改z分数的情况下是否有良好的截止,或者它是否基于我的数据类型?
答案 0 :(得分:0)
这取决于您拥有的数据类型。一般而言,基于中位数的操作会丢失一些异常信息。然而,足够大的数据集的结果应该是相似的,质心从平均值转移到中值;在偏斜的数据集中,这可能会给你更好的结果。
关于截止点,这是一个开始提示。
考虑数学:传统的Z分数基于根和平方计算。想想这里的根(N)因素。如何影响你的99%的中值计算点,这是一个简单的线性计算?