我的问题:一个包含很少值的列的大型数据集。
我问道:使用 dplyr 包(或基础)删除包含缺失值频率的data.frame列。
我尝试了什么:
# my data.frame
data <- data.frame(column1 = c(1, 2, 13, 4),
column2 = c(4, NA, 9, 1),
column3 = c(12, NA, NA, 78))
# relative frequency of NA values
missing_values <- colMeans(is.na(data))
# selecting columns
library(dplyr)
complete_table <- data %>%
select (missing_values>0.25)