应用错误收集

时间：2016-09-14 07:20:27

标签： uniqueidentifier fingerprint fuzzy-search fuzzy-comparison

我有一个电子表格，其中包含地址，姓名，IBAN，电子邮件等值，并希望确定客户上次购买商品的时间。

问题是：某些字段包含拼写错误，其他字段故意输入错误。

在GitHub上，可以使用https://github.com/seatgeek/fuzzywuzzy，https://github.com/seamusabshere/fuzzy_match或https://github.com/atom/fuzzaldrin等多个库来执行基于单个可比较列的模糊搜索。但我希望将多个字段组合在一起 - 这听起来像是一个常见的问题，我希望找到现有的解决方案。

您能为这样的问题推荐方法吗？是否存在我遗漏的这类问题的现有项目？所有字段上的常规字符串距离通常都足够好吗？

答案 0 :(得分：1)

我在你的另一个问题中提到过它，但dedupe python library does what you want。

基本上，它计算一对行中每个字段之间的距离，然后学习最佳权重，将这些距离合并为一个记录对分数。

答案 1 :(得分：0)

到目前为止，我相信http://blog.yhat.com/posts/fuzzy-matching-with-yhat.html并且使用fuzzyWuzzy似乎是最好的方法。