我有如下数据集,我想计算每个唯一ID的平均时差
data:
membership_id created_date
1 12000000 2015-01-20
2 12000001 2012-11-19
3 12000001 2013-10-07
4 12000001 2014-03-06
5 12000001 2015-01-14
6 12000003 2013-02-08
7 12000003 2014-03-06
8 12000000 2014-02-05
9 12000000 2012-01-06
从上面的数据集中,我想计算每个唯一ID的日期之间的平均时差
尝试:
library(plyr)
data =data[order(data$membership_id,data$created_date),]
result = ddply(data,.(membership_id),summarize, avg = as.numeric(mean(diff(created_date))))
当我申请小数据时,上面的代码工作正常,但是我的数据集是500万行,这需要花费很多时间,但仍然是从最近6个小时开始运行
预期产出:
membership_id avg_time_diff
1 12000000 76 days
2 12000001 56 days
3 12000003 54 days
答案 0 :(得分:3)
来自plyr
,您可以很容易地转换到dplyr
。它不会像数据表一样快,但它会比ddply
多快。
dat %>% group_by(membership_id) %>%
arrange(created_date) %>%
summarize(avg = as.numeric(mean(diff(created_date))))
# Source: local data frame [3 x 2]
#
# membership_id avg
# (int) (dbl)
# 1 12000000 555
# 2 12000001 262
# 3 12000003 391
如果没有更多的实际努力,您可以通过转换为data.table
对象来加快速度,但仍然使用dplyr
命令。纯data.table
仍然会更快。
(使用此数据)
dat = structure(list(membership_id = c(12000000L, 12000001L, 12000001L,
12000001L, 12000001L, 12000003L, 12000003L, 12000000L, 12000000L
), created_date = structure(c(16455, 15663, 15985, 16135, 16449,
15744, 16135, 16106, 15345), class = "Date")), .Names = c("membership_id",
"created_date"), row.names = c("1", "2", "3", "4", "5", "6",
"7", "8", "9"), class = "data.frame")