我正在尝试对数据进行子集化,以在新数据框中创建可能重复项的列表。问题在于名称的格式不同,实际上只有一小部分ID可能匹配。
我需要R输出可能重复的列表供我检查
我找到了一些格式化问题的示例,或者是您尝试匹配的前几个字符时的示例。我不确定如何将代码放在一起,匹配的字符可能在名称中的任何位置。
到目前为止,这似乎使我最接近,但是我仍然不确定如何为我应用代码。
Subset a df using partial match with multiple criteria
这是我的数据的样子(但有1000000s行):
Supplier.Name Date.of.Record BMCC.avg
SG & JM Hammond 2018-07-21 292.2381
Mileshan Nominees Pty Ltd 2018-12-21 130.0000
RW & GJ Brown & Sons 2018-02-21 162.8333
BD & BA Smith 2018-02-21 478.0000
最后,我想要一个基于部分匹配(可能连续4或5个字符?)的可能重复项的列表
现在,我似乎根本无法编写代码。即使是几个起点建议也会有所帮助。 谢谢!