假设我有一个像这样的数据集:
我需要检查可能的重复项。在此,第二行和第三行是可疑重复项。我知道字符串距离方法以及数字变量的近似匹配。但是这两种方法都结合了吗?最终,我正在寻找一种可以在R中实现的方法。
答案 0 :(得分:1)
我认为没有解决此问题的简单方法。您可以分别将每一列视为:datetime
作为时间戳接近度,string
作为字符串接近度(Levenshtein距离)和freq
作为数字距离。然后,您可以按递增方式分别为每一列的每一行排名。在所有三个指标中排名最高的行号(最低差异)是更好的重复候选。然后,您可以选择考虑重复案件的阈值。