我对Python很新,但似乎相处得很好。我正在用Python编写一个Web爬虫。
我已经让爬虫使用Beautiful Soup库工作,并希望找到最好的库来解析或将地址拆分成组成部分。
以下是要解析的文本示例。
['\r\n\t \t\t \t25 Stockwood Road', <br/>, 'Asheville, NC 28803', <br/>, '\t (828) 505-1638\t \t']
我理解它是一个列表,我可以弄清楚如何删除控制字符。
由于我这么新,我想建议使用什么库 - Python版本,操作系统和必备软件。
我想为自己找出代码,但如果你倾向于提供样本,我就不会争辩。 :)
答案 0 :(得分:1)
你可以尝试使用python库usaddress(还有一个web interface来试用它)
它在概率上解析地址,并且在处理凌乱的地址时比基于正则表达式的解析器更强大。
答案 1 :(得分:0)
List Comprehension非常流畅。另请查看String Strip.但它不会删除HTML空白元素,但会清除标签,换行符和空格。
out = [x.strip() for x in lst]