我想使用dplyr汇总来按组对计数进行求和。具体来说,如果并非所有求和值均为NA,我想删除NA值,但如果所有求和值均为NA,我想显示NA。例如:
name <- c("jack", "jack", "mary", "mary", "ellen", "ellen")
number <- c(1,2,1,NA,NA,NA)
df <- data.frame(name,number)
在这种情况下,我想要以下结果:
但是,如果我设置na.rm = F
:
df %>% group_by(name) %>% summarise(number = sum(number, na.rm = F))
结果是:
如果我设置了na.rm = T
:
df %>% group_by(name) %>% summarise(number = sum(number, na.rm = T))
结果是
我该如何解决,以使具有数字和NA的个案获得一个数字作为输出,而只有NA的个案获得NA作为输出。
答案 0 :(得分:4)
我们可以有一个if/else
条件-if
all
'number中的值为NA
,然后返回NA
或else
得到sum
library(dplyr)
df %>%
group_by(name) %>%
summarise(number = if(all(is.na(number))) NA_real_ else sum(number, na.rm = TRUE))
答案 1 :(得分:4)
我在同样的事情上苦苦挣扎,所以我在软件包hablar
中写了一个解决方案。试试:
library(hablar)
df %>% group_by(name) %>%
summarise(number = sum_(number))
为您提供:
# A tibble: 3 x 2
name number
<fct> <dbl>
1 ellen NA
2 jack 3.
3 mary 1.
不是唯一的语法差异是sum_
,如果所有都是NA,它是一个返回NA的函数,否则将删除NA并计算总和的无缺失值。