Question

可以使用带有filter的dplyr过滤行，但条件通常基于每行的特定列，例如

d <- data.frame(x=c(1,2,NA),y=c(3,NA,NA),z=c(NA,4,5))
d %>% filter(!is.na(y))

我想根据NA的数量是否大于50％来过滤行，例如

d %>% filter(mean(is.na(EACHROW)) < 0.5 )

如何以dplyr / magrittr流方式执行此操作？

Answer 1

您可以使用rowSums或rowMeans。提供数据的示例：

> d
   x  y  z
1  1  3 NA
2  2 NA  4
3 NA NA  5

# with rowSums:
d %>% filter(rowSums(is.na(.))/ncol(.) < 0.5)

# with rowMeans:
d %>% filter(rowMeans(is.na(.)) < 0.5)

两者都给出了：

  x  y  z
1 1  3 NA
2 2 NA  4

正如您所见，第3行已从数据中删除。

在基地R，您可以这样做：

d[rowMeans(is.na(d)) < 0.5,]

得到相同的结果。

使用基于整行的dplyr / magrittr过滤行

1 个答案: