Question

我有一个大型数据集，它是来自数据库的随机样本。有些列非常稀疏，因此样本中的列是空的。如何以编程方式让R找到空列，然后从数据集中删除它们？

Answer 1

使用此样本表

dd<-data.frame(
    a=1:5,
    b=1:5,
    c=rep(NA,5),
    d=1:5,
    e=rep(NA,5)
)

以下代码将查看dd的所有列，以查看所有值是否为NA。如果是，则不会将它们包含在最终数据集中。

dd <- dd[, !sapply(dd, function(x)all(is.na(x))), drop=F]