Question

我的数据集如下：

ID start.date  end.date    program
1  2016.05.05  2017.05.05  A
1  2017.05.06  2019.06.16  A
2  2012.06.05  2013.06.18  B
3  2014.09.09  2017.07.01  B
3  2017.09.09  2018.09.09  B

我想连续确定程序（字符变量）中存在的人员，然后计算每个end.date和start.date之间的时间（如果连续发生）。

因此，结果数据应如下所示：

ID start.date  end.date    program  days
1  2016.05.05  2017.05.05  A         NA
1  2017.05.06  2019.06.16  A .       1   
2  2012.06.05  2013.06.18  B .       NA
3  2014.09.09  2017.07.01  B .       NA
3  2017.09.09  2018.09.09  B .       63

不知道如何开始！

Answer 1

library(dplyr)
dat %>%
  group_by(ID, program) %>%
  arrange(start.date) %>%  # Added in case the data isn't sorted
  mutate(days = start.date - lag(end.date))

我得到的结果略有不同：

# A tibble: 5 x 5
# Groups:   ID, program [3]
     ID start.date end.date   program days  
  <int> <date>     <date>     <chr>   <time>
1     1 2016-05-05 2017-05-05 A       NA    
2     1 2017-05-06 2019-06-16 A       1     
3     2 2012-06-05 2013-06-18 B       NA    
4     3 2014-09-09 2017-07-01 B       NA    
5     3 2017-09-09 2018-09-09 B       70

要引入数据，我将其转换为日期：

dat <- read.table(header = T, stringsAsFactors = F, 
text = "ID start.date  end.date    program
        1  2016.05.05  2017.05.05  A
        1  2017.05.06  2019.06.16  A
        2  2012.06.05  2013.06.18  B
        3  2014.09.09  2017.07.01  B
        3  2017.09.09  2018.09.09  B") %>%
  mutate_at(vars(matches("date")), lubridate::ymd)

查找（ID）组中的连续事件

1 个答案: