如何在两个字符串列之间找到匹配项,并以有序的方式将它们组合在一起?

时间:2019-07-23 13:50:24

标签: r stringr

这是我要解决的问题:

我有两个不同的字符列。这两列的确来自不同的数据集,并描述了完全相同的对象,但是有一些细微的差异,并且以不同的方式排序。这是每个样本的很小一部分。

A                       B
IFK Kristianstad        Chekhov
HC Vardar               Barça
Rhein-Neckar Löwen      Vardar
FC Barcelona            Rhein-Neckar Löwen
Chekhovski Medvedi      PSG
Paris Saint-Germain     Kristianstad

我的目标是将A列中的每个值与其在B列中的对应项进行匹配,并将它们汇总到一个数据框中,因此我想要的输出将如下所示:

A                       B
IFK Kristianstad        Kristianstad
HC Vardar               Vardar
Rhein-Neckar Löwen      Rhein-Neckar Löwen
FC Barcelona            Barça
Chekhovski Medvedi      Chekhov
Paris Saint-Germain     PSG

此外,您可以看到,即使在几乎所有情况下,无论大小,在A上的每个值与其在B中的对应项之间至少存在匹配,在一种情况下(巴黎圣日耳曼/ PSG)它们是链接,因为一个是另一个的缩写。我不知道是否有一种简单的方法来处理它,而不必重命名涉及的两个值中的任何一个。

关于其余部分,直到现在,我都没有尝试过使用match()或str_match()之类的函数。

0 个答案:

没有答案