Question

我正在尝试对数据进行子集化，以在新数据框中创建可能重复项的列表。问题在于名称的格式不同，实际上只有一小部分ID可能匹配。

我需要R输出可能重复的列表供我检查

我找到了一些格式化问题的示例，或者是您尝试匹配的前几个字符时的示例。我不确定如何将代码放在一起，匹配的字符可能在名称中的任何位置。

到目前为止，这似乎使我最接近，但是我仍然不确定如何为我应用代码。

Subset a df using partial match with multiple criteria

这是我的数据的样子（但有1000000s行）：

Supplier.Name Date.of.Record BMCC.avg
SG & JM Hammond     2018-07-21 292.2381
Mileshan Nominees Pty Ltd     2018-12-21 130.0000
RW & GJ Brown & Sons     2018-02-21 162.8333
BD & BA Smith     2018-02-21 478.0000

最后，我想要一个基于部分匹配（可能连续4或5个字符？）的可能重复项的列表

现在，我似乎根本无法编写代码。即使是几个起点建议也会有所帮助。谢谢！

如何将部分匹配的ID子集化为数据帧

0 个答案: