近似重复数据删除

时间:2019-07-15 13:45:15

标签: r join duplicates fuzzy-comparison record-linkage

假设我有一个像这样的数据集:

example data

我需要检查可能的重复项。在此,第二行和第三行是可疑重复项。我知道字符串距离方法以及数字变量的近似匹配。但是这两种方法都结合了吗?最终,我正在寻找一种可以在R中实现的方法。

1 个答案:

答案 0 :(得分:1)

我认为没有解决此问题的简单方法。您可以分别将每一列视为:datetime作为时间戳接近度,string作为字符串接近度(Levenshtein距离)和freq作为数字距离。然后,您可以按递增方式分别为每一列的每一行排名。在所有三个指标中排名最高的行号(最低差异)是更好的重复候选。然后,您可以选择考虑重复案件的阈值。