在表之间进行模糊匹配后删除重复的条目

时间:2019-08-23 13:08:32

标签: r dplyr fuzzyjoin

我正在尝试通过模糊匹配在数据集的名称和位置中查找数据输入错误。我有一个来自原始数据siterow_id的唯一密钥,并且已经创建了一个新密钥pi_key,在那里我已经确定了一些硬匹配项。 (无模糊匹配)。运行模糊匹配后,我得到重复的值。来自site左侧和右侧的某些siterow_id的匹配项。我可以手动查看数据,看看发生这种情况的地方以及删除行的硬代码。当我转到具有更多匹配项的更大数据集时,我想要一种更算法的方法来执行此操作。

我尝试过这种方式,但是它删除了左侧和右侧的匹配项。如果可能的话,我会喜欢一种简单的方法来做到这一点,而不是循环。

该表的输出包括在下面。您可以在第8行和第9行看到重复项。

for(site in three_letter_matches$siterow_id.x){ 
  if (any(three_letter_matches$siterow_id.y == site)) {
    three_letter_matches <- three_letter_matches[!three_letter_matches$siterow_id.y == site,]
  }
}




  pi_key.x siterow_id.x last_name.x first_name.x city.x country.x pi_key.y siterow_id.y
  <chr>    <chr>        <chr>       <chr>        <chr>  <chr>     <chr>    <chr>       
1 6309     1-9CH29M     kim         kevin        san f~ united s~ 11870    1-HC3YY6    
2 7198     1-CJGRSZ     kim         jinseok      seoul  korea re~ 2952     1-2QBRZ2    
3 7198     1-CJGRSZ     kim         jinseok      seoul  korea re~ 2952     1-3AHHSU    
4 7198     1-CJGRSZ     kim         jinseok      seoul  korea re~ 2952     1-3JYF8V    
5 7567     1-CW4DXI     bar         jair         ramat~ israel    8822     1-E3UILG    
6 8822     1-E3UILG     bar         jair         ramat~ israel    7567     1-CW4DXI    
7 11870    1-HC3YY6     kim         kevin        san f~ united s~ 6309     1-9CH29M    
8 12357    1-HUUEA6     lee         hyojin       daeje~ korea re~ 13460    1-IGKCPP    
9 13460    1-IGKCPP     lee         hyo jin      daeje~ korea re~ 12357    1-HUUEA6

我找到了另一种方法

update <- three_letter_matches[!is.na(match(three_letter_matches$siterow_id.x, three_letter_matches$siterow_id.y)),]
update %<>% arrange(last_name.x, first_name.x) %>% 
  filter(row_number() %% 2 != 0)
three_letter_matches_update <- three_letter_matches %>% 
  anti_join(update)

仍然愿意接受建议。

1 个答案:

答案 0 :(得分:1)

这不是最简单的问题,但是有几种方法可以做到这一点。我想到的第一个有点慢(因为它使用rowwise()等效于使用map()lapply())是这样的:

注意:仅当siterow_id.x / y是字符向量时,此方法才有效。不能考虑因素。

three_letter_matches <- three_letter_matches %>%
  rowwise() %>%
  mutate(both_values = paste0(sort(c(siterow_id.x,siterow_id.y)),collapse = ",")) %>%
  ungroup() %>%
  distinct(both_values,.keep_all = TRUE) %>%
  select(-both_values)


# pi_key.x   siterow_id.x last_name.x first_name.x city.x country.x pi_key.y siterow_id.y
# 6309  1-9CH29M    kim kevin   san f~  united s~   11870   1-HC3YY6
# 7198  1-CJGRSZ    kim jinseok seoul   korea re~   2952    1-2QBRZ2
# 7198  1-CJGRSZ    kim jinseok seoul   korea re~   2952    1-3AHHSU
# 7198  1-CJGRSZ    kim jinseok seoul   korea re~   2952    1-3JYF8V
# 7567  1-CW4DXI    bar jair    ramat~  israel      8822    1-E3UILG
# 12357 1-HUUEA6    lee hyojin  daeje~  korea re~   13460   1-IGKCPP

基本上,我在这里所做的是按行执行,以便一次处理一行,然后获取site_row id并对它们进行排序,以便每一行具有相同的顺序,然后将它们粘贴到一个易于比较的单个字符串。接下来,我将其取消组合,以便您再次查看所有行(摆脱该行方式)。然后运行一个distinct,仅将每个值的第一行保留在新列中,但使用.keep_all选项保留所有列。然后,通过删除多余的列进行清理。