我有一个包含日期时间和值的数据框,如下所示:
datetime value
1 2016-05-03 08:51:41 0
2 2016-05-03 10:36:24 0
3 2016-05-03 10:36:32 9
4 2016-05-03 10:45:01 5
5 2016-05-03 10:45:24 0
6 2016-05-03 19:37:02 0
7 2016-05-03 19:37:06 7
8 2016-05-03 19:48:38 0
我想要的是一个表,其中包含值恒定的句点的开始和停止时间。对于上表,预期输出如下:
value start stop
1 0 <NA> 2016-05-03 10:36:32
2 9 2016-05-03 10:36:32 2016-05-03 10:45:01
3 5 2016-05-03 10:45:01 2016-05-03 10:45:24
4 0 2016-05-03 10:45:24 2016-05-03 19:37:06
5 7 2016-05-03 19:37:06 2016-05-03 19:48:38
6 0 2016-05-03 19:48:38 <NA>
原始表格的输入
structure(list(datetime = structure(c(1462258301, 1462264584,
1462264592, 1462265101, 1462265124, 1462297022, 1462297026, 1462297718
), class = c("POSIXct", "POSIXt"), tzone = ""), value = c(0,
0, 9, 5, 0, 0, 7, 0)), class = "data.frame", row.names = c(NA,
-8L), .Names = c("datetime", "value"))
答案 0 :(得分:5)
使用data.table ...
library(data.table)
setDT(DF)
res = DF[, .(end = datetime[.N]), by=.(value, seq = rleid(value))]
res[.N, end := NA]
value seq end
1: 0 1 2016-05-03 04:36:24
2: 9 2 2016-05-03 04:36:32
3: 5 3 2016-05-03 04:45:01
4: 0 4 2016-05-03 13:37:02
5: 7 5 2016-05-03 13:37:06
6: 0 6 <NA>
我会在此时停止,因为添加start
列是多余的。如果你真的想要它:
res[, start := shift(end)]
setcolorder(res, c("value", "seq", "start", "end"))
value seq start end
1: 0 1 <NA> 2016-05-03 04:36:24
2: 9 2 2016-05-03 04:36:24 2016-05-03 04:36:32
3: 5 3 2016-05-03 04:36:32 2016-05-03 04:45:01
4: 0 4 2016-05-03 04:45:01 2016-05-03 13:37:02
5: 7 5 2016-05-03 13:37:02 2016-05-03 13:37:06
6: 0 6 2016-05-03 13:37:06 <NA>
工作原理:
DT[i, j, by]
过滤到i
,然后计算j
by
.()
只是list()
rleid
标识每个&#34;运行&#34;相同的价值观.N
是by
组中的行数(如果by
为空,则为表格中的行数):=
按引用修改列shift
是滞后/主要运营商setcolorder
按引用重新排列列(请注意,我的结果看起来不像是OP,因为给出了错误的dput
,或者因为POSIX日期时间对象非常挑剔。我建议IDateTime
来自而不是data.table包。)
答案 1 :(得分:0)
假设您的第一个数据框名为x
。然后做:
data.frame(value=names(tapply(x$datetime, x$value, min)), start=tapply(x$datetime, x$value, max), stop=tapply(x$datetime, x$value, max))