Python的地址解析器,如何拆分地址

时间:2015-02-18 03:33:12

标签: python parsing

我对Python很新,但似乎相处得很好。我正在用Python编写一个Web爬虫。

我已经让爬虫使用Beautiful Soup库工作,并希望找到最好的库来解析或将地址拆分成组成部分。

以下是要解析的文本示例。

['\r\n\t                     \t\t                     \t25 Stockwood Road', <br/>, 'Asheville, NC 28803', <br/>, '\t                        (828) 505-1638\t                  \t']

我理解它是一个列表,我可以弄清楚如何删除控制字符。

由于我这么新,我想建议使用什么库 - Python版本,操作系统和必备软件。

我想为自己找出代码,但如果你倾向于提供样本,我就不会争辩。 :)

2 个答案:

答案 0 :(得分:1)

你可以尝试使用python库usaddress(还有一个web interface来试用它)

它在概率上解析地址,并且在处理凌乱的地址时比基于正则表达式的解析器更强大。

答案 1 :(得分:0)

对于像这样的东西,

List Comprehension非常流畅。另请查看String Strip.但它不会删除HTML空白元素,但会清除标签,换行符和空格。

out = [x.strip() for x in lst]