我有一个相当大的位置地址数据库(500k +)来自世界各地。虽然很多地址都是重复的或接近重复的。 每当输入新地址时,我都会检查它是否已经存在于数据库中,如果是,我将采用已存在的lat / long并将其应用于新条目。 我没有链接到单独的表的原因是因为地址不被用作要搜索的组,并且它们通常在我希望保持它们不同的地址上有足够的差异。 如果我在地址上完全匹配,我会应用lat / long。如果没有,我去市级并申请,如果我不能在那里得到匹配,我有一个单独的过程来运行。
现在你有广泛的背景,问题。偶尔我会得到一个远远超出正常可接受误差范围的纬度/经度。然而,奇怪的是,通常只有一个或两个纬度/长度超出范围,而其余数据存在于具有正确城市名称的数据库中。
您如何建议清理数据?我有geonames数据库,所以理论上我有正确的数据。我正在努力的是你将要完成的例行程序。
如果有人可以指向某个(低级别)数据清理方向,那就太棒了。
答案 0 :(得分:0)
这是一个老问题,但真正的原则永远不会消亡,对吗?
我在一家名为SmartyStreets的公司的地址验证行业工作。如果您拥有大量地址并需要“清理”,符合官方标准,然后将依赖于您的运营的任何方面,您最好查看CASS认证软件(仅限美国;各国差异很大,许多人没有正式提供这样的服务。
USPS授权CASS认证的供应商“清理”或“清理”(意思是:标准化和验证)地址数据。我建议您查看SmartyStreets'LiveAddress等服务来验证地址或一次处理列表。还有其他选择,但我认为这是最灵活,最实惠的。您可以清理初始列表,然后使用API在收到新地址时验证它们。
更新:我看到你正在使用JSON进行各种各样的事情(我喜欢JSON,顺便说一下,它很容易使用)。您需要的服务提供商并不多,但SmartyStreets 确实。此外,通过阅读该网站上的一些资源/文章,您将能够自己了解地址验证的主题。