dplyr查找表/模式匹配

时间:2018-01-24 10:03:33

标签: r dplyr lookup-tables

我一直在寻找一种智能或“更整洁”的方式来在tidyverse中使用查找表,但找不到令人满意的解决方案。

我有一个数据集和查找表:

# Sample data
data <- data.frame(patients = 1:5,
                   treatment = letters[1:5],
                   hospital = c("yyy", "yyy", "zzz", "www", "uuu"),
                   response = rnorm(5))

# Lookup table
lookup <- tibble(hospital = c("yyy", "uuu"), patients = c(1,5))

...查找表中的每一行都是我想要过滤第一个元素(数据)的确切模式。

想要的结果如下:

# A tibble: 3 x 4
  patients treatment hospital response
     <dbl> <chr>     <chr>       <dbl>
1     1.00 a         yyy       -0.275 
2     5.00 e         uuu       -0.0967

我提出的最简单的解决方案是这样的:

as.tibble(dat) %>% 
  filter(paste(hospital, patients) %in% paste(lookup$hospital, lookup$patients))

但是,这必须是许多人经常做的事情 - 是否有更清晰,更便捷的方式(即查找表中有两列以上)?

1 个答案:

答案 0 :(得分:0)

由于dplyr::inner_join()的默认行为是匹配传递给函数的两个元组之间的公共列,而查找表只包含2个键列,因此最短的代码如下:

library(dplyr)

# Sample data
data <- tibble(patients = 1:5,
                   treatment = letters[1:5],
                   hospital = c("yyy", "yyy", "zzz", "www", "uuu"),
                   response = rnorm(5))

# Lookup table
lookup <- tibble(hospital = c("yyy", "uuu"), patients = c(1,5))

data %>% inner_join(.,lookup)

...和输出:

> data %>% inner_join(.,lookup)
Joining, by = c("patients", "hospital")
# A tibble: 2 x 4
  patients treatment hospital response
     <dbl> <chr>     <chr>       <dbl>
1     1.00 a         yyy        -1.44 
2     5.00 e         uuu        -0.313
>

因为所需的输出可以通过跨区块的键列的连接来完成,所以OP中的paste()代码是不必要的。

另请注意,inner_join()是正确的连接类型,因为所需的输出是跨两个传入元组匹配的行,并且查找表没有重复的行。如果查找表包含重复的行,那么根据OP上的注释,semi_join()将是适当的函数。