
时间:2014-03-27 00:44:32

标签: r

我的数据集很大。我有大约2,000个变量和1,000个观测值。 我想使用其他变量为每个变量运行一个模型。 为此,我需要删除因变量不具有缺失值的变量。

我的意思是,例如,对于变量" A"我需要删除变量C和D,因为那些变量A没有的值缺失。变量" C"我可以保持变量" D"。

data <- read.table(text="
A  B  C  D
1  3  9  4
2  1  3  4
NA NA 3  5
4  2  NA NA
2  5  4  3
1  1  1  2",header=T,sep="")


2 个答案:

答案 0 :(得分:1)


getVars <- function(data, col){
  tmp<-!sapply(data[!is.na(data[[col]]),], function(x) { any(is.na(x)) })
  names(data)[tmp & names(data) != col]



答案 1 :(得分:1)


for (i in 1:ncol(data)) {

  # filter out rows with NA's in on column 'i'
  # which is the column we currently care about 

  tmp <- data[!is.na(data[,i]),]

  # now column 'i' has no NA values, so remove other columns
  # that have NAs in them from the data frame

  tmp <- tmp[sapply(tmp, function(x) !any(is.na(x)))] 

  #run your model on 'tmp'



'data.frame':   5 obs. of  2 variables:
 $ A: int  1 2 4 2 1
 $ B: int  3 1 2 5 1

'data.frame':   5 obs. of  2 variables:
 $ A: int  1 2 4 2 1
 $ B: int  3 1 2 5 1

'data.frame':   4 obs. of  2 variables:
 $ C: int  3 3 4 1
 $ D: int  4 5 3 2

'data.frame':   5 obs. of  1 variable:
 $ D: int  4 4 5 3 2