Question

我有几十个每日数据集，其中一列代表datetime。每个数据集df都相对较大（+ 50k）。我需要计算每隔3分钟我有多少datetime个注册表。

数据样本：

time
21/05/2010 19:59:37
21/05/2010 08:40:30
21/05/2010 09:21:00
21/05/2010 22:29:50
21/05/2010 11:27:34
21/05/2010 18:25:14

步骤：将值设置为日期时间格式：df1$time <- as.POSIXct(df1$time, format ="%d/%m/%Y %H:%M:%S")

间隔3分钟：df1$min3 <- cut(df1$time, breaks = "3 min", )

每个时间间隔计算事件：df2 <- aggregate(df1, by = list(df1$min3) , length )

问题是，每个文件的首次注册表时间都不同。例如。有些从早上5:35开始，另一些在5:33开始，所以第一个有5：35-5：38-5：41间隔，而第二个有5：33-5：36等。

当我执行间隔时，我需要为所有数据集设置一个共同的开头。但我正在堆叠它（特别是因为我甚至不知道我应该寻找什么“编程术语”）。任何人都知道如何为每个df同时设置休息时间？（请记住我有很多天）

数据：

    df1 <- structure(list(arrtime = c("21/05/2010 19:59:37", "21/05/2010 08:40:30", 
"21/05/2010 09:21:00", "21/05/2010 22:29:50", "21/05/2010 11:27:34", 
"21/05/2010 18:25:14", "21/05/2010 15:16:01", "21/05/2010 09:41:53", 
"21/05/2010 15:01:29", "21/05/2010 09:02:06")), .Names = "arrtime", row.names = c(448L, 
496L, 622L, 712L, 740L, 785L, 907L, 912L, 984L, 1078L), class = "data.frame")

R对大型数据集的间隔有效地组合日期时间

0 个答案: