该问题类似于几天前已经发布的问题,Collapse rows from 0 to 0
此处与上一个问题不同的新变化是,如何仅对时间差小于或等于60的行按ID折叠行。
例如,使用相同的数据集
Incident.ID.. date product
INCFI0000029582 2014-09-25 08:39:45 foo
INCFI0000029582 2014-09-25 08:39:45 foo
INCFI0000029582 2014-09-25 08:39:48 bar
INCFI0000029582 2014-09-25 08:40:44 foo
INCFI0000029582 2014-10-10 23:04:00 foo
INCFI0000029587 2014-09-25 08:33:32 bar
INCFI0000029587 2014-09-25 08:34:41 bar
INCFI0000029587 2014-09-25 08:35:24 bar
INCFI0000029587 2014-10-10 23:04:00 foo
df <- structure(list(Incident.ID.. = c("INCFI0000029582", "INCFI0000029582","INCFI0000029582",
"INCFI0000029582", "INCFI0000029582", "INCFI0000029587", "INCFI0000029587",
"INCFI0000029587", "INCFI0000029587"), date = c("2014-09-25 08:39:45","2014-09-25 08:39:45",
"2014-09-25 08:39:48", "2014-09-25 08:40:44", "2014-10-10 23:04:00",
"2014-09-25 08:33:32", "2014-09-25 08:34:41", "2014-09-25 08:35:24",
"2014-10-10 23:04:00"), product =
c("foo","foo","bar","foo","foo","bar","bar","bar","foo")),
class = "data.frame", row.names = c(NA,
-L))
这将通过ID计算时差
library(dplyr)
library(lubridate)
df1 <- df %>%
group_by(Incident.ID..) %>%
arrange(ymd_hms(date)) %>%
mutate(diff = c(0, diff(ymd_hms(date))))
这将导致新列差异如下所示
Incident.ID.. date product diff
INCFI0000029582 2014-09-25 08:39:45 foo 0
INCFI0000029582 2014-09-25 08:39:45 foo 0
INCFI0000029582 2014-09-25 08:39:48 bar 3
INCFI0000029582 2014-09-25 08:40:44 foo 56
INCFI0000029582 2014-10-10 23:04:00 foo 1347796
INCFI0000029587 2014-09-25 08:33:32 bar 0
INCFI0000029587 2014-09-25 08:34:41 bar 69
INCFI0000029587 2014-09-25 08:35:24 bar 43
INCFI0000029587 2014-10-10 23:04:00 foo 1348116
现在仅以时间差小于或等于60的Incident.ID..
折叠行,即diff <= 60
应该产生这样的最终数据集
Incident.ID.. DateMin DateMax product diff_collapse
INCFI0000029582 2014-09-25 08:39:45 2014-09-25 08:40:44 foo,bar,foo 0,0,3,56
INCFI0000029582 2014-09-25 08:40:44 2014-10-10 23:04:00 foo 1347796
INCFI0000029587 2014-09-25 08:33:32 2014-09-25 08:34:41 bar 0
INCFI0000029587 2014-09-25 08:34:41 2014-09-25 08:35:24 bar,bar 69,43
INCFI0000029587 2014-09-25 08:35:24 2014-10-10 23:04:00 foo 1348116
正在寻找有关如何创建这样的折叠数据集的帮助。预先感谢。
答案 0 :(得分:0)
您需要一个满足您需要的分组列:
... %>% mutate(
grp = ifelse(diff <= 60,
paste0(Incident.ID.., "origin"),
paste0(Incident.ID.., diff)
))
这将为差异小于60的行创建一个相同的(在Incident.ID..
中)的石斑鱼,否则,它是唯一的。 (假设diff
是唯一的-如果您重复的差异大于60,请使用row_number()
而不是diff
中的paste
来确保它是唯一的。)
将其用作您的展开代码的分组列。
答案 1 :(得分:0)
我建议创建一个新的分组变量。我得到了想要的结果,像这样:
df1 <- df %>%
group_by(Incident.ID..) %>%
arrange(ymd_hms(date)) %>%
mutate(diff = c(0, diff(ymd_hms(date)))) %>%
ungroup() %>%
arrange(Incident.ID.., date) %>%
mutate(group = cumsum(diff > 60 | diff == 0)) %>%
group_by(group) %>%
summarise(DateMin = min(date),
DateMax = max(date),
diff_collapse = toString(diff),
product = toString(product))
我基本上是在确定新组应该从条件diff > 60 | diff == 0
开始的哪一行:diff > 60
因为这是崩溃条件,而diff == 0
因为那是新事件开始的时间。您也可以写Incident.ID.. != lag(Incident.ID..)
。每次启动新组时,将其包装在cumsum
中都会增加计数器。
首先ungroup
很重要,否则cumsum
仅在组内工作。