如何将部分匹配的ID子集化为数据帧

时间:2019-07-16 15:39:51

标签: r duplicates

我正在尝试对数据进行子集化,以在新数据框中创建可能重复项的列表。问题在于名称的格式不同,实际上只有一小部分ID可能匹配。

我需要R输出可能重复的列表供我检查

我找到了一些格式化问题的示例,或者是您尝试匹配的前几个字符时的示例。我不确定如何将代码放在一起,匹配的字符可能在名称中的任何位置。

到目前为止,这似乎使我最接近,但是我仍然不确定如何为我应用代码。

Subset a df using partial match with multiple criteria

这是我的数据的样子(但有1000000s行):

Supplier.Name Date.of.Record BMCC.avg
SG & JM Hammond     2018-07-21 292.2381
Mileshan Nominees Pty Ltd     2018-12-21 130.0000
RW & GJ Brown & Sons     2018-02-21 162.8333
BD & BA Smith     2018-02-21 478.0000

最后,我想要一个基于部分匹配(可能连续4或5个字符?)的可能重复项的列表

现在,我似乎根本无法编写代码。即使是几个起点建议也会有所帮助。 谢谢!

0 个答案:

没有答案