使用R从数据中删除异常值的方法

时间:2013-06-15 15:49:31

标签: r data-mining outliers

我删除了建模数据中的异常值。 我厌倦了尝试所有删除方法,因为有一个异常值,我在应用了很多方法之后给了我很多困扰。

任何人都可以请求帮助我......请...

我使用了winzorise,异常值,极限值包装等,但却无法删除异常值

数据有50000个cutomers和32个属性。

数据包含数字和非数字数据

我无法在此附加数据集。

请帮帮我

额外信息:

我非常担心,因为我的论文我不知道如何处理异常值。

如果您知道任何有效的内容,请发布...

网上有数据,我不能在这里发帖,对不起....

我的主管需要一个没有异常值的情节。 以及异常数据的整个数据槽。 我不知道如何对变量和选择异常值的组合以及绘图中没有任何异常值进行绘图。

我不知道该怎么做。 由于声誉<10

,我无法发布图片或快照数据

2 个答案:

答案 0 :(得分:1)

到目前为止,没有关于您的数据和结果的更多信息, 你只会得到非常一般的答案。 例如,有一章关于异常检测 Y.赵的R and Data Mining 这可能有用。

如果您的数据集是this one, 大多数变量都是定性的: 分别查看每个变量可能就足够了,并将稀有类视为异常值。 this article中列出了一些算法。

也可能没有异常值可担心。

答案 1 :(得分:0)

您的数据是多变量的,因此您可以使用cov.mcd和cov.mve来获得最小协方差行列式和最小体积椭球估计量。然后使用这些协方差估计之一计算mahalonabis距离。高于临界值的平方mahalonobis距离可以被认为是大的,并且相应的观察可以被标记为异常值。使用具有p自由度的chisquare分布的分位数,其中p是变量的数量。

编辑:cov.mcd和cov.mve在包MASS中定义