我正在使用stringdist_join()进行左连接,但遇到麻烦,因为我的输出中的行比原始的“左”数据帧多。
nrow(records_nona)
#output : 603
nrow(institutions)
# output : 981
records_nona <- stringdist_left_join(records_nona, institutions,
by = c("tm_1_undergradu" = "Institution.Name"))
nrow(records_nona)
# output: 635
我不确定,为了实现这一目标,我可能在这里搞砸了。否则我对左联接的理解是错误的。任何指导将不胜感激,谢谢。
答案 0 :(得分:0)
我能够找出解决方案,由于联接的近似性,左侧联接产生重复项,因此我只需要减小max_dist = 1(默认值为max_dist = 2)。现在,我有了正确的行数。