应用错误收集

我想在数据集的长度和值方面找到异常值变量。换句话说，我想通过在变量之间进行比较来找到一个与其他变量不同的变量。

为了说明，下面是一个虚拟集：

outliers <- data.frame(A = c(32, 31, 32, 38, 23, NA, NA, NA, NA, NA),
                       B = c(33, 39, 28, 34, 32, NA, NA, NA, NA, NA),
                       C = c(28, 39, 41, 31, 29, NA, NA, NA, NA, NA),
                       D = c(8, 9, 19, 28, 31, 23, 18, 13, 93, 2))

很明显，变量D在观察的长度及其值（均值）方面都是异常值。

我想找到一种方法在我的实际数据集中找到诸如D之类的异常变量，并将它们放入列表中以进行进一步检查。我在使用实际数据集时遇到的困难是它非常大（有许多列表包含具有数百列和数千行的数据框）。

谢谢！

如何在非常大的数据集中找到离群值变量？

0 个答案: