Python记录链接,模糊匹配和重复数据删除

时间:2018-05-09 08:17:39

标签: python duplicates fuzzywuzzy record-linkage python-dedupe

我有3个客户数据集,有7列。

  

客户名称

     

地址

     

电话

     

StoreName

     

移动

     

经度

     

纬度

每个数据集都有13000-18000条记录。我试图模糊匹配它们之间的重复数据删除。我的数据集列在此匹配中的权重不同。我怎么能处理它???? 你知道我的案子好书库吗?

1 个答案:

答案 0 :(得分:1)

我认为Recordlinkage库适合您的目的

您可以使用比较对象,要求进行各种匹配:

compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName')
compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.string('Address', 'Address', threshold=0.85, label='Address')

然后定义匹配项,您可以自定义所需的结果,即是否要至少匹配2个特征

features = compare_cl.compute(pairs, df)    
matches = features[features.sum(axis=1) > 3]