记录重复数据删除(链接)算法

时间:2016-09-13 07:18:06

标签: algorithm graph duplicates cluster-analysis record-linkage

我有一个标准的重复数据删除任务: 我有一些文本(或其他一些)字段的记录很多,其中一些字段对应于同一个实体。合并这些记录是该任务的目标。

这种任务有一些广泛使用的简单统计方法 喜欢" Probabilistic Record Linkage"。其中一些更精确,更复杂,但使用https://github.com/datamade/dedupe之类的相同想法: 他们尝试以某种方式对每个字段进行加权,作为相似度的度量,然后加权差异的线性组合作为整个记录相似度的度量。

但对于某些任务,我有很多未知领域,但类似领域的数量相当大:

record1 : propA = A ; propB = unknown ; propC = unknown ;  ....
record2 : propA = A ; propB = B ; propC = unknown ; ....
record3 : propA = unkown ; propB = B ; propC = D ; ....

record4 : propA = A2 ; propB = unknown ; propC = unknown ;  ....
record5 : propA = A2 ; propB = B2 ; propC = unknown ; ....
record6 : propA = X2 ; propB = B2 ; propC = D2 ; ....

在这种情况下,record1可以通过record2与record3链接的可能性更大 record4 with record6。

这意味着我需要一些类似于图形聚类但有很多跳过和非常大量的节点和边缘。 我不需要精确的解决方案,但是必须存在更好的经典统计重复数据删除。

1 个答案:

答案 0 :(得分:1)

Dedupe处理丢失的数据并执行图形聚类。记录链接还有其他范例,但您的数据似乎并不需要它。

如果你想研究更新的范例,看看Beka Steorts或Michael Wick的作品。