Question

我对Python很新，但似乎相处得很好。我正在用Python编写一个Web爬虫。

我已经让爬虫使用Beautiful Soup库工作，并希望找到最好的库来解析或将地址拆分成组成部分。

以下是要解析的文本示例。

['\r\n\t                     \t\t                     \t25 Stockwood Road', <br/>, 'Asheville, NC 28803', <br/>, '\t                        (828) 505-1638\t                  \t']

我理解它是一个列表，我可以弄清楚如何删除控制字符。

由于我这么新，我想建议使用什么库 - Python版本，操作系统和必备软件。

我想为自己找出代码，但如果你倾向于提供样本，我就不会争辩。：）

Answer 1

你可以尝试使用python库usaddress（还有一个web interface来试用它）

它在概率上解析地址，并且在处理凌乱的地址时比基于正则表达式的解析器更强大。

Answer 2

对于像这样的东西，

List Comprehension非常流畅。另请查看String Strip.但它不会删除HTML空白元素，但会清除标签，换行符和空格。

out = [x.strip() for x in lst]

Python的地址解析器，如何拆分地址

2 个答案: