开源地址Scrubber?

时间:2008-11-14 23:03:27

标签: database street-address

我已经输入了一组名称和地址,并且excel电子表格,但问题是输入地址的许多人以许多不同的非标准格式输入了它们。我想在将所有地址传输到我的数据库之前擦除地址。环顾四周,我真正发现的地址清理器(解析器或格式化程序)的方式是由Semaphore提供的。就我的目的而言,我并不真的需要所有这些,我不想支付软件的许可费用。那里有免费和/或开源的东西会为我擦洗吗?

5 个答案:

答案 0 :(得分:6)

因为我在邮寄业务工作......

可邮寄地址不是地理编码。一个允许USPS发送邮件,另一个允许你告诉你这个点到底在哪里。 USPS没有对其可邮寄地址进行地理编码。它可用于标记人员的区域/区域以进行定位。

您没有购买该软件的许可证,而是购买数据。邮局有很多规则,特别是如果你在商业上这样做并试图获得比头等更好的价格。有关完整的规则列表,请参阅USPS Domestic Mail Manual。 USPS一直在拉链和拉链之间移动拉链和住户。该公司(我为之工作)向USPS支付其更新的邮件列表,以便我们可以更新我们的数据库。每周

回到你的问题。您想将数据更改为通用格式(街道 - > st)还是要查找重复数据并且只想存储真实的可邮寄地址?

用于通用格式;您可以将地址分成几部分,清理空白区域并应用术语/翻译词典。然后应用一些sql来查找重复项。请记住,家庭(1个主要的st)与人(john doe,1 main st)不同。

对于可邮寄的地址,你们中的一些人(读者)不会喜欢这个答案,但是你们想要的是信息,这不是免费的。有人花费时间或金钱来获取和维护这些列表。因此,找到一个商业模式来获取列表的资金,或者找一个为你做这件事的人。 Data and mail management

实际上,Semaphore非常便宜,请记住,地址数据库必须每季度更新一次,每季度19美元便宜。

另一种地址擦洗产品。 SAP PostalSoft。我不知道数据会花多少钱。

答案 1 :(得分:3)

我实际上在地址验证行业工作...... Jim的答案是明智的接受。不幸的是,对于我们这些预算较低的人来说,官方USPS数据价格昂贵且系统很复杂。 (我根据经验知道,因为我所工作的公司SmartyStreets,提供的地址验证速度低于大多数。)

我能在这里做的最好的帮助是推荐一个低成本/免费替代品(取决于你的体积),如LiveAddress,其中地址列表没有最低限度的购买,API是超便宜和超级 - 比较容易。

答案 2 :(得分:2)

答案 3 :(得分:0)

我与之合作过的大部分软件都非常昂贵(换句话说,营销部门很天真并且预算庞大)。

这种工作是地理编码的先驱。这个linked Wiki article包括一个地理编码软件列表,其中一些是免费的。如果你很幸运,一些免费的可能包括地址标准化程序。

如果你找到一个好的,请告诉我。

答案 4 :(得分:0)

我们使用Accuzip。它比大多数解决方案便宜很多(约700美元/年)并且每两个月更新一次。它使用USPS地址标准化API,我为此编写了一个.NET包装器。这允许我实时运行它(Accuzip,默认情况下,只有批处理模式)。