Question

我知道我的问题并不应该很清楚，所以我希望我的解释会使其更容易理解。我有这样的数据：

# total_call data
call_id | from_number | retrieved_date
1         1             2020-01-12 12:03:34
2         1             2020-01-12 12:06:34
3         2             2020-01-15 13:02:40
4         2             2020-01-15 13:05:40 
5         1             2020-01-12 13:09:34

我想通过from_number和retrieved_date变量对调用进行分组，它们的时间最早必须在1小时以内。 1小时后，它属于一个新组。然后，我想过滤每个组的最新时间。这是我想要的结果：

# total_call data
call_id | from_number | retrieved_date
2         1             2020-01-12 12:06:34
4         2             2020-01-15 13:05:40 
5         1             2020-01-12 13:09:34

感谢您的关注。我期待着您的答复。

Answer 1

我们将retrieved_date转换为POSIXct格式，arrange数据，并在当前retrieved_date比前一个retrieved_date大一个以上时创建一个新组。一个小时，然后选择最大为retrieved_date的行。

library(dplyr)

df %>%
  mutate(retrieved_date = lubridate::ymd_hms(retrieved_date)) %>%
  arrange(from_number, retrieved_date) %>%
  group_by(from_number) %>%
  group_by(gr = cumsum(difftime(retrieved_date, lag(retrieved_date, 
            default = first(retrieved_date)), units = "hours") > 1),add = TRUE) %>%
   slice(which.max(retrieved_date)) %>%
   ungroup() %>%
   select(-gr)

# A tibble: 3 x 3
#  call_id from_number retrieved_date     
#    <int>       <int> <dttm>             
#1       2           1 2020-01-12 12:06:34
#2       5           1 2020-01-12 13:09:34
#3       4           2 2020-01-15 13:05:40

数据

df <- structure(list(call_id = 1:5, from_number = c(1L, 1L, 2L, 2L, 
1L), retrieved_date = structure(c(1L, 2L, 4L, 5L, 3L), 
.Label = c("2020- 01-12 12:03:34","2020-01-12 12:06:34", "2020-01-12 13:09:34", 
"2020-01-15 13:02:40", "2020-01-15 13:05:40"), class = "factor")), 
class = "data.frame", row.names = c(NA, -5L))

如何根据日期组的最新日期过滤数据？

1 个答案: