模糊身份指纹识别

时间:2016-09-14 07:20:27

标签: uniqueidentifier fingerprint fuzzy-search fuzzy-comparison

我有一个电子表格,其中包含地址,姓名,IBAN,电子邮件等值,并希望确定客户上次购买商品的时间。

问题是:某些字段包含拼写错误,其他字段故意输入错误。

在GitHub上,可以使用https://github.com/seatgeek/fuzzywuzzyhttps://github.com/seamusabshere/fuzzy_matchhttps://github.com/atom/fuzzaldrin等多个库来执行基于单个可比较列的模糊搜索。但我希望将多个字段组合在一起 - 这听起来像是一个常见的问题,我希望找到现有的解决方案。

您能为这样的问题推荐方法吗?是否存在我遗漏的这类问题的现有项目? 所有字段上的常规字符串距离通常都足够好吗?

2 个答案:

答案 0 :(得分:1)

我在你的另一个问题中提到过它,但dedupe python library does what you want

基本上,它计算一对行中每个字段之间的距离,然后学习最佳权重,将这些距离合并为一个记录对分数。

答案 1 :(得分:0)

到目前为止,我相信http://blog.yhat.com/posts/fuzzy-matching-with-yhat.html并且使用fuzzyWuzzy似乎是最好的方法。