dplyr:left_join其中df值介于df B值

时间:2018-01-31 22:06:30

标签: r dplyr tidyverse

我想知道是否可以使用dplyr或一些tidyverse包来实现以下目的......

上下文:我无法将数据放入允许使用geom_rect的结构中。请参阅this SO question了解动机。

library(tis)

# Prepare NBER recession start end dates.
recessions <- data.frame(start = as.Date(as.character(nberDates()[,"Start"]),"%Y%m%d"),
                    end= as.Date(as.character(nberDates()[,"End"]),"%Y%m%d"))

dt <- tibble(date=c(as.Date('1983-01-01'),as.Date('1990-10-15'), as.Date('1993-01-01')))

期望的输出:

date       start      end
1983-01-01 NA         NA
1990-10-15 1990-08-01 1991-03-31
1993-01-01 NA         NA

感谢任何建议。

注意:以前的问题表明sqldf是一种方法。但是,这里的数据涉及日期,我的理解日期不是SQLite中的数据类型。

本着“写下你希望拥有的代码”的精神:

df <- dt %>%
      left_join(x=., y=recessions, date >= start & date <= end)

2 个答案:

答案 0 :(得分:1)

以下仅使用dplyr并生成所需的数据帧结果。 注意:在较大的数据集上,您可能会遇到内存问题,而G. Grothendieck提出的sqldf也可以使用。

<强>帽尖: @ nick-criswell指导我到{ian-gow this partial solution

# Build data frame of dates within the interval [start, end]
df1 <- dt %>% 
        mutate(dummy=TRUE) %>% 
        left_join(recessions %>% mutate(dummy=TRUE)) %>% 
        filter(date >= start & date <= end) %>% 
        select(-dummy) 

# Build data frame of all other dates with start=NA and end=NA
df2 <- dt %>% 
        mutate(dummy=TRUE) %>% 
        left_join(recessions %>% mutate(dummy=TRUE)) %>% 
        mutate(start=NA, end=NA) %>%
        unique() %>%
        select(-dummy) 
# Now merge the two.  Overwirte NA values with start and end dates
df <- df2 %>% 
      left_join(x=., y=df1, by="date") %>%
      mutate(date, start = ifelse(is.na(start.y), as.character(start.x), as.character(start.y)),end = ifelse(is.na(end.y), as.character(end.x), as.character(end.y))) %>%
      mutate(start=as.Date(start), end=as.Date(end) )

> df
# A tibble: 3 x 3
        date      start        end
      <date>     <date>     <date>
1 1983-01-01         NA         NA
2 1990-10-15 1990-08-01 1991-03-31
3 1993-01-01         NA         NA

答案 1 :(得分:1)

R中的

"Date"类对象在内部存储为自Epoch(1970年1月1日)以来的天数,并且该数字是发送给SQLite的数字,因此即使该类不是,也仍保持该顺序;因此,我们可以使用SQLite后端执行此操作:

sqldf("select * from dt left join recessions on date between start and end")

,并提供:

        date      start        end
1 1983-01-01       <NA>       <NA>
2 1990-10-15 1990-08-01 1991-03-31
3 1993-01-01       <NA>       <NA>

另请注意,sqldf与其他几个完全支持日期的后端一起使用,因此您不仅限于SQLite。建议您查看https://github.com/ggrothendieck/sqldf上的常见问题解答和示例。