您认为在R中以自动方式执行多变量稳健离群值检测的首选方式是什么,即无需人工检查和绘图?
我找到了“dprep”软件包,但它似乎停止了。然而,由于离群值检测是一项常见且重要的任务,因此应该使用通用的默认方法,例如, MCD估计(Rousseeuw和Van Driesen,1999)。
答案 0 :(得分:1)
在包robustbase中尝试covMcd。
答案 1 :(得分:0)
使用Cook的距离 你可以使用厨师的距离。 Cook的距离是基于线性回归模型计算的。这意味着,您将能够包含多个X变量来计算异常值(更准确地说是高影响观察)。这有效地为您提供了添加或删除您想要确定异常值的变量的灵活性。为R中的每个观察计算它的方法看起来像这样:
mod <- lm(Y ~ X1 + X2 + X3, data=inputData)
cooksd <- cooks.distance(mod)
在一般惯例中,那些具有厨师距离的观察结果> 4 * mean(烹饪距离)被视为异常值。有关formula and interpretation of cook's distance的更多信息,请参阅this example
免责声明:我是作者。