我需要比较两个非结构化地址,并能够识别它们是否相同(或相似)。
我知道我们可以使用一些模糊逻辑进行这种比较,对拼写错误有一定的容忍度,但是......
我不想重新发明轮子。这个问题在不同的环境中似乎是一个普遍关注的问题,我认为可能适合这种情况的算法(可能会略微修改)。
提前致谢
答案 0 :(得分:1)
我帮助构建了一些开源工具来实现这一目标。
基本上,方法是尝试拆分并解决它的组成部分,然后智能地比较这些部分。
问题的两个部分都很难。
第一部分通常称为地址解析。以下是我们使用的内容:https://github.com/datamade/usaddress
第二部分有很多很多名字,但我们称之为模糊匹配。这是我们为此制作的图书馆:https://github.com/datamade/dedupe
我们还提供了一些使用它们的工具:http://dedupe.readthedocs.io/en/latest/Variable-definition.html#address-type