使用stringdist_join()进行的左联接返回的行多于开始行。

时间:2018-11-05 15:19:57

标签: r string boolean-logic

我正在使用stringdist_join()进行左连接,但遇到麻烦,因为我的输出中的行比原始的“左”数据帧多。

  nrow(records_nona)
   #output : 603

  nrow(institutions)
  # output : 981

  records_nona <- stringdist_left_join(records_nona, institutions, 
   by = c("tm_1_undergradu" = "Institution.Name"))

  nrow(records_nona)
  # output: 635

我不确定,为了实现这一目标,我可能在这里搞砸了。否则我对左联接的理解是错误的。任何指导将不胜感激,谢谢。

1 个答案:

答案 0 :(得分:0)

我能够找出解决方案,由于联接的近似性,左侧联接产生重复项,因此我只需要减小max_dist = 1(默认值为max_dist = 2)。现在,我有了正确的行数。