请注意,我已经使用dplyr编写了一些代码来完成所需的操作,但是感觉很笨拙,我想知道是否有更优雅的解决方案
我有一个简化的数据框,基本上是这样的:
df = data.frame(
id = c(1,1,1,2,2,2),
date = as.Date(c('2018/01/01', '2018/01/02',
'2018/01/03', '2018/01/01', '2018/01/02', '2018/06/01'))
)
id date
1 1 2018-01-01
2 1 2018-01-02
3 1 2018-01-03
4 2 2018-01-01
5 2 2018-01-02
6 2 2018-06-01
我想获得一个表,该表显示每个ID的第一条记录后30天内的记录数和最后一条记录后30天内的记录数。对于此简单版本,输出应如下所示:
id start.records end.records
1 3 3
2 2 1
我可以使用以下代码获得所需的输出:
df %>%
group_by(id) %>%
summarize(min.date = min(date)) %>%
mutate(min.date.plus.30 = min.date + 30) %>%
fuzzy_left_join(
df,
by = list(x=c("id", "min.date.plus.30"), y=c("id", "date")),
match_fun = list(`==`, `>`)
) %>%
group_by(id.x, min.date) %>%
summarize(start.records = n()) %>%
left_join(
df %>%
group_by(id) %>%
summarize(max.date = max(date)) %>%
mutate(max.date.minus.30 = max.date - 30) %>%
fuzzy_left_join(
df,
by = list(x=c("id", "max.date.minus.30"), y=c("id", "date")),
match_fun = list(`==`, `<`)
) %>%
group_by(id.x, max.date) %>%
summarize(end.records = n()),
by = "id.x"
)
但这似乎是一个非常微妙的解决方案。
有更好的方法吗?我宁愿不使用sqldf,因为它不容易处理日期计算,而且我的真实数据集有15万多行,甚至简单的sqldf测试查询也要永久运行。
提前感谢您的帮助!
答案 0 :(得分:2)
也许我们可以使用
library(data.table)
library(lubridate)
setDT(df)[, .(start.records = sum(date <= (first(date) + days(30))),
end.records = sum(date >= (last(date) - days(30)))), by = id]
# id start.records end.records
#1: 1 3 3
#2: 2 2 1
或使用dplyr
library(dplyr)
df %>%
group_by(id) %>%
summarise(
start.records = sum(date <= (first(date) + days(30))),
end.records = sum(date >= (last(date) - days(30))))
# A tibble: 2 x 3
# id start.records end.records
# <dbl> <int> <int>
#1 1 3 3
#2 2 2 1