我想知道是否可以使用dplyr或一些tidyverse包来实现以下目的......
上下文:我无法将数据放入允许使用geom_rect
的结构中。请参阅this SO question了解动机。
library(tis)
# Prepare NBER recession start end dates.
recessions <- data.frame(start = as.Date(as.character(nberDates()[,"Start"]),"%Y%m%d"),
end= as.Date(as.character(nberDates()[,"End"]),"%Y%m%d"))
dt <- tibble(date=c(as.Date('1983-01-01'),as.Date('1990-10-15'), as.Date('1993-01-01')))
期望的输出:
date start end
1983-01-01 NA NA
1990-10-15 1990-08-01 1991-03-31
1993-01-01 NA NA
感谢任何建议。
注意:以前的问题表明sqldf
是一种方法。但是,这里的数据涉及日期,我的理解日期不是SQLite中的数据类型。
本着“写下你希望拥有的代码”的精神:
df <- dt %>%
left_join(x=., y=recessions, date >= start & date <= end)
答案 0 :(得分:1)
以下仅使用dplyr并生成所需的数据帧结果。
注意:在较大的数据集上,您可能会遇到内存问题,而G. Grothendieck提出的sqldf
也可以使用。
<强>帽尖:强> @ nick-criswell指导我到{ian-gow this partial solution
# Build data frame of dates within the interval [start, end]
df1 <- dt %>%
mutate(dummy=TRUE) %>%
left_join(recessions %>% mutate(dummy=TRUE)) %>%
filter(date >= start & date <= end) %>%
select(-dummy)
# Build data frame of all other dates with start=NA and end=NA
df2 <- dt %>%
mutate(dummy=TRUE) %>%
left_join(recessions %>% mutate(dummy=TRUE)) %>%
mutate(start=NA, end=NA) %>%
unique() %>%
select(-dummy)
# Now merge the two. Overwirte NA values with start and end dates
df <- df2 %>%
left_join(x=., y=df1, by="date") %>%
mutate(date, start = ifelse(is.na(start.y), as.character(start.x), as.character(start.y)),end = ifelse(is.na(end.y), as.character(end.x), as.character(end.y))) %>%
mutate(start=as.Date(start), end=as.Date(end) )
> df
# A tibble: 3 x 3
date start end
<date> <date> <date>
1 1983-01-01 NA NA
2 1990-10-15 1990-08-01 1991-03-31
3 1993-01-01 NA NA
答案 1 :(得分:1)
"Date"
类对象在内部存储为自Epoch(1970年1月1日)以来的天数,并且该数字是发送给SQLite的数字,因此即使该类不是,也仍保持该顺序;因此,我们可以使用SQLite后端执行此操作:
sqldf("select * from dt left join recessions on date between start and end")
,并提供:
date start end
1 1983-01-01 <NA> <NA>
2 1990-10-15 1990-08-01 1991-03-31
3 1993-01-01 <NA> <NA>
另请注意,sqldf与其他几个完全支持日期的后端一起使用,因此您不仅限于SQLite。建议您查看https://github.com/ggrothendieck/sqldf上的常见问题解答和示例。