使用R的多变量鲁棒异常检测

时间:2011-12-04 12:33:20

标签: r distribution

您认为在R中以自动方式执行多变量稳健离群值检测的首选方式是什么,即无需人工检查和绘图?

我找到了“dprep”软件包,但它似乎停止了。然而,由于离群值检测是一项常见且重要的任务,因此应该使用通用的默认方法,例如, MCD估计(Rousseeuw和Van Driesen,1999)。

2 个答案:

答案 0 :(得分:1)

在包robustbase中尝试covMcd。

答案 1 :(得分:0)

使用Cook的距离 enter image description here 你可以使用厨师的距离。 Cook的距离是基于线性回归模型计算的。这意味着,您将能够包含多个X变量来计算异常值(更准确地说是高影响观察)。这有效地为您提供了添加或删除您想要确定异常值的变量的灵活性。为R中的每个观察计算它的方法看起来像这样:

mod <- lm(Y ~ X1 + X2 + X3, data=inputData)
cooksd <- cooks.distance(mod)

在一般惯例中,那些具有厨师距离的观察结果> 4 * mean(烹饪距离)被视为异常值。有关formula and interpretation of cook's distance的更多信息,请参阅this example

免责声明:我是作者。