Question

我想要加入两个数据帧。他们共享两个字段：group_id和person_name。我想完全加入group_id并在person_name上模糊。我怎么能这样做？

约束：

它应该是一个内部联接。因此，group_id精确且person_name模糊必须出现在左右框架中。
真实的数据帧很大。我尝试了the answer suggested by David Robinson using his package fuzzyjoin，但是在过滤之前创建笛卡尔积的数据太多了。
我喜欢tidyverse中的答案，但这并不是绝对必要的。

这是一个小例子：

a = data.frame(
    group_id=c(1,2,2,3,3,3),
    person_name=c('Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'),
    eye_color=c('brown', 'green', 'blue', 'brown', 'green', 'blue')
)
b = data.frame(
    group_id=c(2,2,2,3,3,3,3),
    person_name=c('Alie', 'Bobo', 'Charles', 'Charlie', 'Davis', 'Eva', 'Zed' ),
    hair_color=c('brown', 'brown', 'black', 'grey', 'brown', 'black', 'blond')
)
expected = data.frame(
    group_id=c(2,2,3,3),
    person_name_x=c('Bob', 'Charlie', 'David', 'Eve'),
    person_name_y=c('Bobo', 'Charles', 'Davis', 'Eva'),
    eye_color=c('green', 'blue', 'brown', 'green'),
    hair_color=c('brown', 'black', 'brown', 'black')
)

Answer 1

你可以尝试

library(RecordLinkage)
library(tidyverse)
compare.linkage(a, b, strcmp = 2, exclude=3, blockfld = 1) %>% 
  epiWeights %>% 
  epiClassify(.8) %>% 
  getPairs(show="links", single.rows=T) %>% 
  .[(c(2,3,7,4,8))]
# group_id.1 person_name.1 person_name.2 eye_color.1 hair_color.2
# 3          2       Charlie       Charles        blue        black
# 2          2           Bob          Bobo       green        brown
# 4          3         David         Davis       brown        brown
# 5          3           Eve           Eva       green        black

Answer 2

在这个例子中，我们基本上需要一个混合连接。对于一列（group_id），我们需要列名的精确匹配，而对于另一列（person_name），我们需要一个模糊连接。

一种方法：

library(fuzzyjoin)
common_id <- intersect(a$group_id, b$group_id)
stringdist_inner_join(a[a$group_id %in% common_id, ], b[b$group_id %in% common_id, ], 
                                                      by = "person_name")

# group_id.x person_name.x eye_color group_id.y person_name.y hair_color
#        <dbl>        <fctr>    <fctr>      <dbl>        <fctr>     <fctr>
#1          2           Bob     green          2          Bobo      Brown
#2          2       Charlie      blue          2       Charles      Black
#3          3         David     brown          3         Davis      Brown
#4          3           Eve     green          3           Eva      Black

在这里，我们首先找到使用group_id的常见intersect个，这些a存在于两个数据框中，并相应地从b和stringdist_inner_join过滤掉它们然后仅在person_name列上使用group_id函数。我们稍后可以删除已生成的额外cAmount : Currency; cAmount := Query1.FieldByName('AMOUNT').AsCurrency;列。

内部连接恰好在一列上，而在另一列上模糊

2 个答案: