尝试使用R删除大型数据库中的潜在异常值

时间:2016-08-12 06:35:38

标签: r statistics

我试图删除R中潜在的异常值 我的问题是下一个问题: https://www.photobox.co.uk/my/photo/full?photo_id=9286177980

当我应用箱线图时,我的新数据比原始数据有更多潜在的异常值。我正在处理500,000个观察,所以我需要解决这个问题才能正确地进行分析。

我知道当分布不均匀时,就像这种情况一样,我们可以使用第二和第三四分位数,但如果我这样做,我会丢失20-30%的数据。

谢谢。

1 个答案:

答案 0 :(得分:1)

删除异常值的一种可靠方法是删除大于平均值+ 2的所有条目或(如果您不想删除太多条目,则为您的情况)3个标准偏差(即> M + 3SD)。