使用Python从HTML中提取项目

时间:2012-01-27 19:13:34

标签: python html

我需要从网络中非常复杂的HTML页面中提取一些信息。我不需要抓取或任何东西,只需要一些XPath选择器或类似的东西。

哪个库是设置和编码最快的(即快速获得结果!)? Scrapy,BeautifulSoap,...,还是基本的HTMLParser?

3 个答案:

答案 0 :(得分:3)

BeautifulSoup很棒。试试吧。它有时可以修复错误的HTML。

答案 1 :(得分:2)

lxml很棒。试试吧。

示例:

import lxml.html
doc = lxml.html.parse('url to parse')
content_parsed  = doc.xpath('xpath expre here')

如果您只想清理lxml.html.clean module的html外观。另请注意,ElementSoup使lxml.html能够在必要时使用BeautifulSoup解析器

答案 2 :(得分:2)

我有BeautifulSoup的一些经验,并且能够在几分钟内得到结果。以下教程页面非常有用,有很多示例:

Leonard Richardson's BeautifulSoup Documentation