我有一个数据框,我正在使用:
df <- data.frame(dates = seq(as.Date("2016-01-01"),as.Date("2016-01-10"), by=1)
, category = c(rep("a",5), rep("b",5))
, values= c(1, rep(NA,4), 5,6, rep(NA,3)))
df %>% group_by(category) %>% fill(values)
但是我想填补只发送一定数量的地方(即如果它离初始点太远则停止前进)。如果没有for循环,有没有一种简单的方法呢?
在这个例子中,如果日期是距离最后一个非NA点的2天,我想停止填写。所以值列将是
values = c(1,1,1,NA,NA, 5,6,6,6,NA)
谢谢
答案 0 :(得分:1)
一种方法是首先fill(values)
,然后将从上一个非NA点(即max(dates[!is.na(values)])
)超过两天后观察到的任何值转换为NA。
library(dplyr)
library(tidyr)
df %>%
group_by(category) %>%
mutate(new_date = max(dates[!is.na(values)]), diff1 = as.numeric(difftime(dates, new_date)/(24*3600))) %>%
fill(values) %>%
mutate(values = replace(values, which(diff1 > 2), NA)) %>%
select(dates:values)
#Source: local data frame [10 x 3]
#Groups: category [2]
# dates category values
# (date) (fctr) (dbl)
#1 2016-01-01 a 1
#2 2016-01-02 a 1
#3 2016-01-03 a 1
#4 2016-01-04 a NA
#5 2016-01-05 a NA
#6 2016-01-06 b 5
#7 2016-01-07 b 6
#8 2016-01-08 b 6
#9 2016-01-09 b 6
#10 2016-01-10 b NA
注意difftime
给了我几秒钟,所以我手动转换为天数