在python3,re,html.parser或其他东西中解析HTML?

时间:2011-02-13 03:33:16

标签: python html regex parsing

我正在尝试获取一份craigslist状态列表以及他们的同事网址。不要担心,我不打算使用spaming,如果你想知道这是什么,请看下面的*。

我试图提取的内容在'us states'之后开始,并且是下一个50<李&的。我通过html.parser的文档阅读,它看起来太低了,更多的目的是在一个ide中制作一个dom解析器或语法高亮/格式化而不是搜索,这让我认为我最好的选择是使用re。为了学习,我想把自己包含在标准库中的内容中。我不是在寻求帮助写一个正则表达式,我会自己解决这个问题,只是确保在花费时间之前没有更好的方法。

*这是我的第一个程序或除了简单的python脚本之外的任何东西。我正在制作一个c ++程序来管理我的帖子并在我们过期时提醒我,以防我想重新发布它们,以及一个python脚本来下载所有美国州和城市/地区的列表以便填充gui中的组合框。我真的不需要它,但我的目标是使这个“生产就绪”/功能完成作为学习练习和创建可能找到工作的投资组合。我不知道我是否会将该程序公之于众,有明显的滥用可能,并且可能反对他们的ToS。

2 个答案:

答案 0 :(得分:4)

Python标准库本身提供了xml.etree XML解析器。您不应该使用正则表达式来解析XML。转到您找到信息的特定节点,然后从中提取链接。

答案 1 :(得分:1)

使用lxml.html。这是最好的python html解析器。它支持xpath!