地址匹配 - 获取与手绘条目最接近的正确地址匹配

时间:2021-03-27 13:31:25

标签: python pandas matching levenshtein-distance street-address

我有一组 25000 个地址(由 AddreLine1、AddreLine2、AddreLine3、AddreLine4 和邮政编码组成),这些地址已手动输入到数据库中,现在我将它们存储在 excel/csv 文件中。让我们称之为集合 A。 另一方面,我有该地理区域的完整地址集。让我们称之为集合 G。它有超过 3000 万个条目。

我需要将 Set A 中的地址与 Set G 中的地址进行比较,以获得最接近的匹配,然后可用于邮寄。

我将不得不在 python 中实现这一点,并且我正在使用 Pandas 库来处理大量数据。 我根据 [Levenshtein distance][1] 算法匹配地址。使用比率输出来选择。

我只是将集合 A 中的每个地址与集合 G 中的每个地址进行匹配,并过滤掉错误的匹配。并根据一些排名算法,我会选择最匹配的地址。

我发现这个实现非常耗时,而且是一种天真的方法。

请提出在使用 Python 语言的限制范围内是否有更好的方法。

0 个答案:

没有答案