请考虑以下内容:
在类似于以下示例的data.frame
中,每位患者记录了服药的日期。目标是计算“下一次治疗的时间”,该时间定义为开始一个治疗到开始下一个治疗之间的天数。 data.frame
中的所有其他列(此处未显示)包含需要保留的独特信息。
我的方法如下:
library("dplyr")
#>
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#>
#> filter, lag
#> The following objects are masked from 'package:base':
#>
#> intersect, setdiff, setequal, union
db <- data.frame(id = c(rep("a", 5), rep("b", 3)),
date = c(rep(as.Date("2018-01-01"), 3),
rep(as.Date("2018-01-20"), 2),
rep(as.Date("2018-01-01"), 3)))
db
#> id date
#> 1 a 2018-01-01
#> 2 a 2018-01-01
#> 3 a 2018-01-01
#> 4 a 2018-01-20
#> 5 a 2018-01-20
#> 6 b 2018-01-01
#> 7 b 2018-01-01
#> 8 b 2018-01-01
db %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(lead(date) - date))
#> Warning: package 'bindrcpp' was built under R version 3.4.4
#> # A tibble: 8 x 3
#> # Groups: id [2]
#> id date time.to.next
#> <fct> <date> <dbl>
#> 1 a 2018-01-01 0.
#> 2 a 2018-01-01 0.
#> 3 a 2018-01-01 19.
#> 4 a 2018-01-20 0.
#> 5 a 2018-01-20 NA
#> 6 b 2018-01-01 0.
#> 7 b 2018-01-01 0.
#> 8 b 2018-01-01 NA
由reprex package(v0.2.0)于2018-08-13创建。
但是,我需要的是这样的data.frame
(或tibble
):
#> # A tibble: 8 x 3
#> # Groups: id [2]
#> id date time.to.next
#> <fct> <date> <dbl>
#> 1 a 2018-01-01 19.
#> 2 a 2018-01-01 19.
#> 3 a 2018-01-01 19.
#> 4 a 2018-01-20 NA
#> 5 a 2018-01-20 NA
#> 6 b 2018-01-01 NA
#> 7 b 2018-01-01 NA
#> 8 b 2018-01-01 NA
问题:尽管唯一计算出的值是一组的最后一次观察与后一组的第一次观察之间的差异,我如何才能使每组的所有值都相同?>
非常感谢您。
答案 0 :(得分:3)
一种选择是首先将所有重复项放在 id 和 date 中,计算时间差,然后在 id <上加入db
/ em>和 date 列:
db %>%
select(id, date) %>%
distinct() %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(lead(date) - date)) %>%
inner_join(db)
#Joining, by = c("id", "date")
# A tibble: 8 x 3
# Groups: id [?]
# id date time.to.next
# <fct> <date> <dbl>
#1 a 2018-01-01 19
#2 a 2018-01-01 19
#3 a 2018-01-01 19
#4 a 2018-01-20 NA
#5 a 2018-01-20 NA
#6 b 2018-01-01 NA
#7 b 2018-01-01 NA
#8 b 2018-01-01 NA
答案 1 :(得分:1)
另一种选择是计算每个date
与该ID的max(date)
之间的距离,然后用NA
替换零。
db <- data.frame(id = c(rep("a", 5), rep("b", 3)),
date = c(rep(as.Date("2018-01-01"), 3),
rep(as.Date("2018-01-20"), 2),
rep(as.Date("2018-01-01"), 3)))
library(dplyr)
db %>%
group_by(id) %>%
mutate(time.to.next = as.numeric(max(date) - date),
time.to.next = ifelse(time.to.next > 0, time.to.next, NA)) %>%
ungroup()
# # A tibble: 8 x 3
# id date time.to.next
# <fct> <date> <dbl>
# 1 a 2018-01-01 19
# 2 a 2018-01-01 19
# 3 a 2018-01-01 19
# 4 a 2018-01-20 NA
# 5 a 2018-01-20 NA
# 6 b 2018-01-01 NA
# 7 b 2018-01-01 NA
# 8 b 2018-01-01 NA