R对大型数据集的间隔有效地组合日期时间

时间:2014-12-21 12:18:35

标签: r datetime time intervals group-by

我有几十个每日数据集,其中一列代表datetime。每个数据集df都相对较大(+ 50k)。我需要计算每隔3分钟我有多少datetime个注册表。

数据样本:

time
21/05/2010 19:59:37
21/05/2010 08:40:30
21/05/2010 09:21:00
21/05/2010 22:29:50
21/05/2010 11:27:34
21/05/2010 18:25:14

步骤: 将值设置为日期时间格式:df1$time <- as.POSIXct(df1$time, format ="%d/%m/%Y %H:%M:%S")

间隔3分钟:df1$min3 <- cut(df1$time, breaks = "3 min", )

每个时间间隔计算事件:df2 <- aggregate(df1, by = list(df1$min3) , length )

问题是,每个文件的首次注册表时间都不同。例如。有些从早上5:35开始,另一些在5:33开始,所以第一个有5:35-5:38-5:41间隔,而第二个有5:33-5:36等。

当我执行间隔时,我需要为所有数据集设置一个共同的开头。但我正在堆叠它(特别是因为我甚至不知道我应该寻找什么“编程术语”)。任何人都知道如何为每个df同时设置休息时间? (请记住我有很多天)

数据:

    df1 <- structure(list(arrtime = c("21/05/2010 19:59:37", "21/05/2010 08:40:30", 
"21/05/2010 09:21:00", "21/05/2010 22:29:50", "21/05/2010 11:27:34", 
"21/05/2010 18:25:14", "21/05/2010 15:16:01", "21/05/2010 09:41:53", 
"21/05/2010 15:01:29", "21/05/2010 09:02:06")), .Names = "arrtime", row.names = c(448L, 
496L, 622L, 712L, 740L, 785L, 907L, 912L, 984L, 1078L), class = "data.frame")

0 个答案:

没有答案