如何从html解析邮政地址(高容忍度 - 低严格性)

时间:2010-12-29 01:32:41

标签: c# html-parsing street-address

我正在寻找有关如何从各种网络资源中提取邮政地址的想法。 我正在使用HtmlAgilityPack将html转换为XDocument(Csharp 4.0)

不打算将地址分解为组件,而只是将地址作为一个整体。我愿意接受相当高的不准确度。

地址可能来自au,uk,ca和usa网站。

此答案提供了good regex solution

1 个答案:

答案 0 :(得分:2)

看起来使用正则表达式解决方案(上面提供)会为您提供相当数量的地址。您提到您愿意接受相当高的不准确度,但您不一定要这样做。根据您获取数据的清洁程度,您可以进行一些地址列表清理,或者“擦洗”,因为它有时会被调用。那就是当你采取格式不正确的地址(取决于从HTML中删除的程度有多严重)并通过标准化引擎然后通过验证引擎运行它。很多时候,这将采用无法投递的地址并返回完全合格且可交付的地址。我说的是USPS(美国)地址,因为这是我的经验,但我确信还有其他一些国家有类似的服务。这些清洗服务可以是实时的,也可以是批量的,具体取决于您的需求。他们中的大多数也相对较快。希望这会有所帮助。

我在一家名为smartystreets的地址验证公司工作。