如何在非常大的数据集中找到离群值变量?

时间:2020-06-01 18:53:11

标签: r dataframe for-loop data-cleaning outliers

我想在数据集的长度和值方面找到异常值变量。 换句话说,我想通过在变量之间进行比较来找到一个与其他变量不同的变量。

为了说明,下面是一个虚拟集:

outliers <- data.frame(A = c(32, 31, 32, 38, 23, NA, NA, NA, NA, NA),
                       B = c(33, 39, 28, 34, 32, NA, NA, NA, NA, NA),
                       C = c(28, 39, 41, 31, 29, NA, NA, NA, NA, NA),
                       D = c(8, 9, 19, 28, 31, 23, 18, 13, 93, 2))

很明显,变量D在观察的长度及其(均值)方面都是异常值。

我想找到一种方法在我的实际数据集中找到诸如D之类的异常变量,并将它们放入列表中以进行进一步检查。 我在使用实际数据集时遇到的困难是它非常大(有许多列表包含具有数百列和数千行的数据框)。

谢谢!

0 个答案:

没有答案