如何在满足条件时重复序列

时间:2017-12-06 18:07:06

标签: r dplyr

我找到了这个问题的变体,我知道可以使用模数,但我很难将它们放在一起。

我有一系列ID和秒的观察结果。当id的累积秒数增加大于5秒时,我想重新开始计数。有人可以帮我在dplyr中回答这个问题吗?

原创df

df <- data.frame(id = c(1,1,1,1,1,2,2,2,2,3,3,3,3), 
                 val = c(2,10,12,15,17,2,4,7,8,12,15,20,25))

df
   id val
1   1   2
2   1  10
3   1  12
4   1  15
5   1  17
6   2   2
7   2   4
8   2   7
9   2   8
10  3  12
11  3  15
12  3  20
13  3  25

期望的结果

finalResult
   id val reset
1   1   2     1
2   1  10     2
3   1  12     2
4   1  15     3
5   1  17     3
6   2   2     1
7   2   4     1
8   2   7     2
9   2   8     2
10  3  12     1
11  3  15     1
12  3  20     2
13  3  25     3

修改

感谢昨天的回复,但我遇到了一些问题。

在此数据集上,代码适用于某些实例。

sub.df <- structure(list(`ID` = c("1", 
                                                "1", "1", 
                                                "1", "1", 
                                                "1", "1", 
                                                "1", "1"
), dateFormat = structure(c(1479955726, 1479955726, 1483703713, 
                            1495190809, 1495190809, 1497265079, 1497265079, 1474023059, 1474023061
), class = c("POSIXct", "POSIXt"), tzone = "America/Chicago")), .Names = c("ID", 
                                                                           "dateFormat"), row.names = c(NA, -9L), class = c("tbl_df", "tbl", 
                                                                                                                            "data.frame")) 

使用的解决方案:

jj <- sub.df %>% 
  group_by(`ID`) %>% 
  arrange(`ID`,`dateFormat`)%>%
  mutate(totalTimeInt = difftime(dateFormat,first(dateFormat),units = 'secs'))%>%
  mutate(totalTimeFormat   = as.numeric(totalTimeInt))%>%
  mutate(reset = cumsum(
    Reduce(
      function(x, y) 
        if (x + y >= 5) 0 
        else x + y, 

        diff(totalTimeFormat), init = 0, accumulate = TRUE
    ) == 0
  ))%>%
  mutate(reset_2 = cumsum(
    accumulate(
      diff(totalTimeFormat), 
      ~if (.x + .y >= 5) 0 else .x + .y, 
      .init = 0
    ) == 0
  ))

结果

# A tibble: 9 x 6
# Groups:   ID [1]
     ID          dateFormat  totalTimeInt totalTimeFormat reset reset_2
  <chr>              <dttm>        <time>           <dbl> <int>   <int>
1     1 2016-09-16 05:50:59        0 secs               0     1       1
2     1 2016-09-16 05:51:01        2 secs               2     1       1
3     1 2016-11-23 20:48:46  5932667 secs         5932667     2       2
4     1 2016-11-23 20:48:46  5932667 secs         5932667     3       3
5     1 2017-01-06 05:55:13  9680654 secs         9680654     4       4
6     1 2017-05-19 05:46:49 21167750 secs        21167750     5       5
7     1 2017-05-19 05:46:49 21167750 secs        21167750     6       6
8     1 2017-06-12 05:57:59 23242020 secs        23242020     7       7
9     1 2017-06-12 05:57:59 23242020 secs        23242020     8       8

对于前两次观察,它正确地将其视为1个实例。当它达到第三和第四次观察时,这只应算作两次观察,因为在这两次实例之间基本上没有时间过去。

正确输出:

# A tibble: 9 x 6
# Groups:   ID [1]
     ID          dateFormat  totalTimeInt totalTimeFormat reset reset_2
  <chr>              <dttm>        <time>           <dbl> <int>   <int>
1     1 2016-09-16 05:50:59        0 secs               0     1       1
2     1 2016-09-16 05:51:01        2 secs               2     1       1
3     1 2016-11-23 20:48:46  5932667 secs         5932667     2       2
4     1 2016-11-23 20:48:46  5932667 secs         5932667     2       2
5     1 2017-01-06 05:55:13  9680654 secs         9680654     3       3
6     1 2017-05-19 05:46:49 21167750 secs        21167750     4       4
7     1 2017-05-19 05:46:49 21167750 secs        21167750     4       4
8     1 2017-06-12 05:57:59 23242020 secs        23242020     5       5
9     1 2017-06-12 05:57:59 23242020 secs        23242020     5       5

2 个答案:

答案 0 :(得分:4)

如果您使用Reduce accumulate = TRUE(或purrr::accumulate,如果您愿意),则可以在大于或等于5时重置运行差异。呼叫{{1关于该总和是否为0将返回重置次数。

cumsum

library(tidyverse) df <- data.frame(id = c(1,1,1,1,1,2,2,2,2,3,3,3,3), val = c(2,10,12,15,17,2,4,7,8,12,15,20,25)) df %>% group_by(id) %>% mutate(reset = cumsum( Reduce( function(x, y) if (x + y >= 5) 0 else x + y, diff(val), init = 0, accumulate = TRUE ) == 0 )) #> # A tibble: 13 x 3 #> # Groups: id [3] #> id val reset #> <dbl> <dbl> <int> #> 1 1 2 1 #> 2 1 10 2 #> 3 1 12 2 #> 4 1 15 3 #> 5 1 17 3 #> 6 2 2 1 #> 7 2 4 1 #> 8 2 7 2 #> 9 2 8 2 #> 10 3 12 1 #> 11 3 15 1 #> 12 3 20 2 #> 13 3 25 3

purrr::accumulate

关于编辑,问题是一些差异是0,这与它计数看重置的相同。最简单的解决方案是使用df %>% group_by(id) %>% mutate(reset = cumsum( accumulate( diff(val), ~if (.x + .y >= 5) 0 else .x + .y, .init = 0 ) == 0 )) #> # A tibble: 13 x 3 #> # Groups: id [3] #> id val reset #> <dbl> <dbl> <int> #> 1 1 2 1 #> 2 1 10 2 #> 3 1 12 2 #> 4 1 15 3 #> 5 1 17 3 #> 6 2 2 1 #> 7 2 4 1 #> 8 2 7 2 #> 9 2 8 2 #> 10 3 12 1 #> 11 3 15 1 #> 12 3 20 2 #> 13 3 25 3 而不是零作为重置值:

NA

最终,这种方法也面临着局限性,就好像任何实际 library(tidyverse) sub.df <- structure(list(`ID` = c("1", "1", "1", "1", "1", "1", "1", "1", "1"), dateFormat = structure(c(1479955726, 1479955726, 1483703713, 1495190809, 1495190809, 1497265079, 1497265079, 1474023059, 1474023061), class = c("POSIXct", "POSIXt"), tzone = "America/Chicago")), .Names = c("ID", "dateFormat"), row.names = c(NA, -9L), class = c("tbl_df", "tbl", "data.frame")) sub.df %>% group_by(ID) %>% arrange(ID, dateFormat) %>% mutate(reset = cumsum(is.na( accumulate(diff(dateFormat), ~{ s <- sum(.x, .y, na.rm = TRUE); if (s >= 5) NA else s }, .init = NA) ))) #> # A tibble: 9 x 3 #> # Groups: ID [1] #> ID dateFormat reset #> <chr> <dttm> <int> #> 1 1 2016-09-16 05:50:59 1 #> 2 1 2016-09-16 05:51:01 1 #> 3 1 2016-11-23 20:48:46 2 #> 4 1 2016-11-23 20:48:46 2 #> 5 1 2017-01-06 05:55:13 3 #> 6 1 2017-05-19 05:46:49 4 #> 7 1 2017-05-19 05:46:49 4 #> 8 1 2017-06-12 05:57:59 5 #> 9 1 2017-06-12 05:57:59 5 的值一样,它也会增加。更强大的解决方案是从每次迭代返回两个元素的列表,一个用于重置的总数,一个用于重置计数。不过,这需要付出更多努力:

NA

总看起来有点傻,但如果你看看差异,它实际上是正确的。

答案 1 :(得分:2)

我可能错了(编辑:我被alistairebrilliant answer证明是错的,虽然我现在暂时离开这种方法,但我认为这是其中一个例子你真正需要一个循环的地方,因为每一行中reset的值将取决于之前行的结果。我希望Joseph Wood会提出比这更聪明的东西,但与此同时,这是一种天真的方法,它根据要求使用dplyr。我们可以做以下功能

count_resets <- function(x) {
    N <- length(x)
    value <- 1
    result <- rep(1, N)
    threshold <- x[1]
    for ( i in 2:N ) {
        if ( abs(x[i] - threshold) >= 5) {
            value <- value + 1
            threshold <- x[i]
        }
        result[i] <- value
    }
    return(result)
}

使用id的{​​{1}} dplyr group_by()应用它:

library(dplyr)

df %>%
    group_by(id) %>%
    mutate(reset = count_resets(val))

# A tibble: 13 x 3
# Groups:   id [3]
      id   val reset
   <dbl> <dbl> <dbl>
 1     1     2     1
 2     1    10     2
 3     1    12     2
 4     1    15     3
 5     1    17     3
 6     2     2     1
 7     2     4     1
 8     2     7     2
 9     2     8     2
10     3    12     1
11     3    15     1
12     3    20     2
13     3    25     3