以不同的时间间隔计算时间戳 - 跨越午夜

时间:2017-08-26 08:29:19

标签: r data.table lubridate

我有一个数据框("观察"),时间戳为H:M格式("时间")。在第二个数据帧(" interval")中,我有时间范围由" From"和"直到"变量,也是H:M格式。

我想计算每个区间内的观察数量。我一直在使用between中的data.table,其中包含日期时一直没有任何问题。

然而,现在我只有时间戳,没有约会。这会导致跨越午夜(20:00 - 05:59)的时间间隔内发生的一些问题。这些时间不计入我试过的代码中。

以下示例

interval.data <- data.frame(From = c("14:00", "20:00", "06:00"), Till = c("19:59", "05:59", "13:59"), stringsAsFactors = F)
observations <- data.frame(Time = c("14:32", "15:59", "16:32", "21:34", "03:32", "02:00", "00:00", "05:57", "19:32", "01:32", "02:22", "06:00", "07:50"), stringsAsFactors = F)

interval.data
#        From     Till
# 1: 14:00:00 19:59:00
# 2: 20:00:00 05:59:00 # <- interval including midnight
# 3: 06:00:00 13:59:00

observations
#        Time
#  1: 14:32:00
#  2: 15:59:00
#  3: 16:32:00
#  4: 21:34:00 # Row 4-8 & 10-11 falls in 'midnight interval', but are not counted
#  5: 03:32:00 # 
#  6: 02:00:00 #
#  7: 00:00:00 #
#  8: 05:57:00 #
#  9: 19:32:00
# 10: 01:32:00 # 
# 11: 02:22:00 #
# 12: 06:00:00
# 13: 07:50:00

library(data.table)
library(plyr)
adply(interval.data, 1, function(x, y) sum(y[, 1] %between% c(x[1], x[2])), y = observations)

#    From  Till V1
# 1 14:00 19:59  4
# 2 20:00 05:59  0 # <- zero counts - wrong!
# 3 06:00 13:59  2

2 个答案:

答案 0 :(得分:4)

一种方法是在data.table中使用非等连接,并使用其辅助函数as.ITime来处理时间字符串。

你有一个跨越午夜的间隔的问题,但是,应该只有其中一个。而且,由于您对每个小组的观察数量感兴趣。间隔时间,您可以将此组视为“不是”的等效组。其他人。

例如,首先将您的data.frame转换为data.table

library(data.table)

## set your data.frames as `data.table`
setDT(interval.data)
setDT(observations)

然后使用as.ITime转换为时间的整数表示

## convert time stamps
interval.data[, `:=`(FromMins = as.ITime(From),
                     TillMins = as.ITime(Till))]

observations[, TimeMins := as.ITime(Time)]
## you could combine this step with the non-equi join directly, but I'm separating it for clarity

您现在可以使用非等联接来查找每次进入的间隔。注意到那些重新燃起&#39; NA&#39;实际上是那些落在午夜跨度区间内的那些

interval.data[
  observations
  , on = .(FromMins <= TimeMins, TillMins > TimeMins)
  ]

#      From  Till FromMins TillMins  Time
# 1:  14:00 19:59      872      872 14:32
# 2:  14:00 19:59      959      959 15.59
# 3:  14:00 19:59      992      992 16:32
# 4:     NA    NA     1294     1294 21:34
# 5:     NA    NA      212      212 03:32
# 6:     NA    NA      120      120 02:00
# 7:     NA    NA        0        0 00:00
# 8:     NA    NA      357      357 05:57
# 9:  14:00 19:59     1172     1172 19:32
# 10:    NA    NA       92       92 01:32
# 11:    NA    NA      142      142 02:22
# 12: 06:00 13:59      360      360 06:00
# 13: 06:00 13:59      470      470 07:50

然后,为了获得区间组的观察数量,您只需.N按每个时间点分组,这可以链接到上述语句的末尾

interval.data[
  observations
  , on = .(FromMins <= TimeMins, TillMins > TimeMins)
][
  , .N
  , by = .(From, Till)
]

#     From  Till N
# 1: 14:00 19:59 4
# 2:    NA    NA 7
# 3: 06:00 13:59 2

NA组对应于跨越午夜的组

答案 1 :(得分:1)

我只是调整了你的代码以获得所需的结果。希望这有帮助!

adply(interval.data, 1, function(x, y) 
  if(x[1] > x[2]) return(sum(y[, 1] %between% c(x[1], 23:59), y[, 1] %between% c(00:00, x[2]))) else return(sum(y[, 1] %between% c(x[1], x[2]))), y = observations)

输出是:

   From  Till V1
1 14:00 19:59  4
2 20:00 05:59  7
3 06:00 13:59  2