在R中聚合顺序时间记录

时间:2017-11-14 01:02:55

标签: r data.table time-series aggregate

我正在尝试按时间序列计算顺序记录,并汇总这些序列的数据。

示例数据

以下是最大频率为1秒的数据示例:

timestamp   Value
06:07:23    0.439
06:07:24    0.556
06:07:25    0.430
06:07:26    0.418
06:07:27    0.407
06:07:47    0.439
06:07:48    0.420
06:07:49    0.405
09:55:21    0.507
09:55:22    0.439
10:03:24    0.439
10:03:25    0.439
10:03:36    1.708
10:03:37    0.608
10:03:38    0.439
10:03:46    0.484
10:03:47    0.380
10:03:48    0.607
10:03:49    0.439
10:03:50    0.439
10:03:51    0.439
10:03:52    0.430
10:03:53    0.439
10:03:54    4.924
10:03:55    1.012
10:03:56    0.887
10:03:57    0.439
10:03:58    0.439
10:04:18    0.447
10:04:19    0.447

可以看出,有些时期每秒都会取一个值。如果观察结果之间没有差距,我试图找到一种聚合的方法,最终结果如下:

timestamp   max     duration
06:07:23    0.556   5
06:07:47    0.439   3
09:55:21    0.507   2
10:03:24    0.439   2
10:03:36    1.708   3
10:03:46    1.012   13
10:04:18    0.447   2

我正在努力寻找一种按顺序数据对数据进行分组的方法。我能找到的最接近的答案是this one,然而,答案是在三年半前提供的,而我正在努力让data.table方法有效。

任何想法都非常感激!

1 个答案:

答案 0 :(得分:3)

以下是data.table的尝试:

dat[, 
  .(timestamp = timestamp[1], max = max(Value), duration=.N),
  by = cumsum(c(FALSE, diff(as.POSIXct(dat$timestamp, format="%H:%M:%S", tz="UTC")) > 1))
]

#   cumsum timestamp   max duration
#1:      0  06:07:23 0.556        5
#2:      1  06:07:47 0.439        3
#3:      2  09:55:21 0.507        2
#4:      3  10:03:24 0.439        2
#5:      4  10:03:36 1.708        3
#6:      5  10:03:46 4.924       13
#7:      6  10:04:18 0.447        2