我将以一个例子说明我的问题。
示例数据:
df <- data.frame(ID = c(1, 1, 2, 2, 3, 5), A = c("foo", "bar", "foo", "foo", "bar", "bar"), B = c(1, 5, 7, 23, 54, 202))
df
ID A B
1 1 foo 1
2 1 bar 5
3 2 foo 7
4 2 foo 23
5 3 bar 54
6 5 bar 202
我想要做的是用ID总结B的总和,当A是&#34; foo&#34;时B的总和。我可以通过以下几个步骤完成此操作:
require(magrittr)
require(dplyr)
df1 <- df %>%
group_by(ID) %>%
summarize(sumB = sum(B))
df2 <- df %>%
filter(A == "foo") %>%
group_by(ID) %>%
summarize(sumBfoo = sum(B))
left_join(df1, df2)
ID sumB sumBfoo
1 1 6 1
2 2 30 30
3 3 54 NA
4 5 202 NA
然而,我正在寻找更优雅/更快的方式,因为我在sqlite中处理10gb +的内存不足数据。
require(sqldf)
my_db <- src_sqlite("my_db.sqlite3", create = T)
df_sqlite <- copy_to(my_db, df)
我想过使用mutate
来定义新的Bfoo
列:
df_sqlite %>%
mutate(Bfoo = ifelse(A=="foo", B, 0))
不幸的是,这并不适用于数据库的末端。
Error in sqliteExecStatement(conn, statement, ...) :
RS-DBI driver: (error in statement: no such function: IFELSE)
答案 0 :(得分:60)
您可以在一个dplyr
语句中执行这两项操作:
df1 <- df %>%
group_by(ID) %>%
summarize(sumB = sum(B),
sumBfoo = sum(B[A=="foo"]))
答案 1 :(得分:26)
撰写@ hadley的评论作为答案
df_sqlite %>%
group_by(ID) %>%
mutate(Bfoo = if(A=="foo") B else 0) %>%
summarize(sumB = sum(B),
sumBfoo = sum(Bfoo)) %>%
collect
答案 2 :(得分:7)
如果你想进行计数而不是总结,那么答案就会有所不同。代码的变化很小,特别是在条件计数部分。
df1 <- df %>%
group_by(ID) %>%
summarize(countB = n(),
countBfoo = sum(A=="foo"))
df1
Source: local data frame [4 x 3]
ID countB countBfoo
1 1 2 1
2 2 2 2
3 3 1 0
4 5 1 0
答案 3 :(得分:0)
如果您想对行进行计数,而不是对行进行求和,可以将变量传递给函数:
df1 <- df %>%
group_by(ID) %>%
summarize(RowCountB = n(),
RowCountBfoo = n(A=="foo"))
n()
和nrow()
都出现错误。