如何在R中删除值为90%以上的列为'0'的列

时间:2018-12-18 08:05:45

标签: r if-statement logic dummy-variable

我有分类变量,我将其转换为虚拟变量并获得了2381个以上的变量。我将不需要那么多变量来进行分析(例如回归或相关)。如果给定列的总值的90%以上为“ 0”,我想删除列。另外,是否有一个很好的指标可以删除90%的值为“ 0”以外的列?救命!

3 个答案:

答案 0 :(得分:1)

这将为您提供data.frame,其中不包含90%以上的元素为0的列:

df[sapply(df, function(x) mean(x == 0) <= 0.9)]

或更贴切地暗示:

df[colMeans(df == 0) <= 0.9]

答案 1 :(得分:0)

这很容易通过colSums完成:

示例数据:

df <- data.frame(x = c(rep(0, 9), 1),
                 y = c(rep(0,9), 1),
                 z = c(rep(0, 8), 1, 1))

> df
   x y z
1  0 0 0
2  0 0 0
3  0 0 0
4  0 0 0
5  0 0 0
6  0 0 0
7  0 0 0
8  0 0 0
9  0 0 1
10 1 1 1

df[, colSums(df == 0)/nrow(df) < .9, drop = FALSE]
   z
1  0
2  0
3  0
4  0
5  0
6  0
7  0
8  0
9  1
10 1

关于有用指标的问题,这在很大程度上取决于您要分析的内容。即使具有大于90%0值的列对于回归模型也可能有用。我会查看变量的内容,或者使用基于AIC或BIC的逐步排除来衡量变量的相关性。

答案 2 :(得分:0)

嗨, 我用dplyr包写了一些代码。这是一些示例,您可以如何消除其中包含90%以上的零的列:

library(dplyr)

df <- data.frame(colA=sample(c(0,1), 100, replace=TRUE, prob=c(0.8,02)),
                 colB=sample(c(0,1), 100, replace=TRUE, prob=c(0.99,001)),
                 colC=sample(c(0,1), 100, replace=TRUE, prob=c(0.5,05)),
                 colD=sample(c(0,1), 100, replace=TRUE, prob=c(0,1)),
                 colE=rep(0, 100))

fct <- function (x) x==0

zero_count <- df %>% mutate_all(funs(fct)) %>% summarise_all(sum)

col_filter <- zero_count <= 0.9 * nrow(df)

df_filter <- df[, col_filter]