从数据框中筛选出非NA条目,同时保留仅包含NA

时间:2016-02-03 17:55:37

标签: r dataframe qualtrics

我正在寻找一种更有效的方式(就代码长度而言)转换data.frame

#   V1 V2 V3 V4 V5 V6 V7 V8 V9
# 1  1  2  3 NA NA NA NA NA NA
# 2 NA NA NA  3  2  1 NA NA NA
# 3 NA NA NA NA NA NA NA NA NA
# 4 NA NA NA NA NA NA NA NA NA
# 5 NA NA NA NA NA NA 1  2  3

#     [,1] [,2] [,3]
#[1,]    1    2    3
#[2,]    3    2    1
#[3,]   NA   NA   NA
#[4,]   NA   NA   NA
#[5,]    1    2    3

也就是说,我想删除多余的NA但正确表示只有NA的行。

我编写了以下功能来完成这项工作,但我确信实现相同目标的方法还不长。

#Dummy data.frame
data <- matrix(c(1:3, rep(NA, 6), 
          rep(NA, 3), 3:1, rep(NA, 3), 
          rep(NA, 9),
          rep(NA, 9),
          rep(NA, 6), 1:3),
          byrow=TRUE, ncol=9)
data <- as.data.frame(data)

sieve <- function(data) {

        #get a list of all entries that are not NA
        cond <- apply(data, 1, function(x) x[!is.na(x)])
        #set integer(0) equal to NA
        cond[sapply(cond, function(x) length(x)==0)] <- NA

        #check how many items there are in non-empty rows
        #(rows are either empty or contain the same number of items)
        n <- max(sapply(cond, length))

        #replace single NA with n NAs, where n = number of items
        #first get an index of entries with single NAs
        index <- (1:length(cond)) [sapply(cond, function(x) length(x)==1)]
        #then replace each entry with n NAs
        for (i in index) cond[[i]]  <- rep(NA, n)

        #turn list into a data.frame
        cond <- matrix(unlist(cond), nrow=length(cond), byrow=TRUE)
        cond
}

sieve(data)

我的问题类似于this question关于提取参与者被分配的条件(我收到了很好的答案)。我尝试将这些答案扩展到当前的虚拟数据,但到目前为止还没有成功。因此,我相当冗长的自定义功能。

编辑:为什么我问这个问题的其他信息:第一个数据框代表实验的原始输出,其中我将参与者分配给三个条件之一(为简单起见,这里使用3)。在每种情况下,参与者阅读不同的场景,然后回答关于他们阅读过的场景的同一组问题。 Qualtrics在V1V3列中记录了第一个条件的参与者的答案,V4V6列中第二个条件的参与者的答案以及参与者的答案列V7V9中的第三个条件。 (如果这个问题块包含4个问题,那么第一个条件的参与者的答案可以是V1V4V2V8可以获得答案第二个条件的参与者......)。

1 个答案:

答案 0 :(得分:2)

如果非NA的长度在不完全填充NA的行中始终相同,则可以尝试此操作:

首先,创建一个具有适当(转置)维度的数据框,并用NA填充它。

d2 <- data.frame(
        matrix(nrow = max(apply(d, 1, function(ii) sum(!is.na(ii)))),
               ncol=nrow(d)))

然后,使用apply填充该数据框,然后转置它以获得所需的结果:

d2[] <- apply(d, 1, function(ii) ii[!is.na(ii)])
t(d2)
#   [,1] [,2] [,3]
#X1    1    2    3
#X2    3    2    1
#X3   NA   NA   NA
#X4   NA   NA   NA
#X5    1    2    3