自上次活动以来经过的天数

时间:2019-04-16 08:49:16

标签: r dplyr transform mutate

我想编码自用户上一次活动进行客户流失分析以来经过的天数。

我尝试了在相关主题中找到的代码,但是它不起作用:

da = da %>%
  arrange(dayid) %>%
group_by(dayid) %>%
  mutate(dayssincelastactivity = c(NA, diff(dayid))

可以说这是数据。 active表示用户在这一天是否处于活动状态。我要添加变量dayssincelastactivity,该变量指示自用户上次活动日以来经过的天数。

da <- data.frame(dayid = c(1,2,3,4,5,6,7,8), active = c(1,1,0,0,0,1,1,1), dayssincelastactivity = c(1,1,2,3,4,1,1,1))

da
  dayid active dayssincelastactivity
1     1      1                     1
2     2      1                     1
3     3      0                     2
4     4      0                     3
5     5      0                     4
6     6      1                     1
7     7      1                     1
8     8      1                     1

1 个答案:

答案 0 :(得分:1)

使用每个组的cumsumseq_along创建分组变量。

with(da, ave(dayid, cumsum(active == 1), FUN = seq_along))
#[1] 1 1 2 3 4 1 1 1

您还可以将其翻译为dplyr

library(dplyr)

da %>%
  group_by(group = cumsum(active == 1)) %>%
  mutate(new_val = row_number()) %>%
  ungroup() %>%
  select(-group)

#  dayid active dayssincelastactivity new_val
#  <dbl>  <dbl>                 <dbl>   <int>
#1     1      1                     1       1
#2     2      1                     1       1
#3     3      0                     2       2
#4     4      0                     3       3
#5     5      0                     4       4
#6     6      1                     1       1
#7     7      1                     1       1
#8     8      1                     1       1