R:选择包含给定数量的NA的行

时间:2013-09-03 17:30:16

标签: r

我有一个带有NA的六列数据框。我希望只选择那些包含最多三个NA的行。  我可以使用sum(is.na(my.df[,c(1:6)])),找到NA的数量但是无法使用'subset'或任何其他函数和条件sum(is.na(log.df[,c(1:6)])) <=3来选择数据帧的子集 最后我希望计算每个选定行的中位数。样本数据如下所示:

C1  C2  C3  C4  C5  C6
6.4 NA 6.1 6.2 NA NA
7.1 6.4 6.5 5.9 7 6.9
7.1 7 6.9 6.9 6.9 7
6.9 NA 6.9 NA 7.1 NA
6.8 NA 7.1 7.1 6.8 7.2
NA NA NA NA NA 6.4
NA NA NA NA NA 6.7

提前致谢

1 个答案:

答案 0 :(得分:6)

使用rowSums

> mydf[rowSums(is.na(mydf)) <= 3, ]
   C1  C2  C3  C4  C5  C6
1 6.4  NA 6.1 6.2  NA  NA
2 7.1 6.4 6.5 5.9 7.0 6.9
3 7.1 7.0 6.9 6.9 6.9 7.0
4 6.9  NA 6.9  NA 7.1  NA
5 6.8  NA 7.1 7.1 6.8 7.2

步骤一步:

  • 每行NA个多少?

    > rowSums(is.na(mydf))
    [1] 3 0 0 3 1 5 5
    
  • 其中有多少小于或等于3?

    > rowSums(is.na(mydf)) <= 3
    [1]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE
    

并且,R可以将其用于子集。它将保留TRUE行(1,2,3,4,5)并丢弃FALSE行(6,7)。