我想在数据集的长度和值方面找到异常值变量。 换句话说,我想通过在变量之间进行比较来找到一个与其他变量不同的变量。
为了说明,下面是一个虚拟集:
outliers <- data.frame(A = c(32, 31, 32, 38, 23, NA, NA, NA, NA, NA),
B = c(33, 39, 28, 34, 32, NA, NA, NA, NA, NA),
C = c(28, 39, 41, 31, 29, NA, NA, NA, NA, NA),
D = c(8, 9, 19, 28, 31, 23, 18, 13, 93, 2))
很明显,变量D
在观察的长度及其值(均值)方面都是异常值。
我想找到一种方法在我的实际数据集中找到诸如D
之类的异常变量,并将它们放入列表中以进行进一步检查。
我在使用实际数据集时遇到的困难是它非常大(有许多列表包含具有数百列和数千行的数据框)。
谢谢!