Question

我需要从网络中非常复杂的HTML页面中提取一些信息。我不需要抓取或任何东西，只需要一些XPath选择器或类似的东西。

哪个库是设置和编码最快的（即快速获得结果！）？ Scrapy，BeautifulSoap，...，还是基本的HTMLParser？

Answer 1

BeautifulSoup很棒。试试吧。它有时可以修复错误的HTML。

Answer 2

lxml很棒。试试吧。

示例：

import lxml.html
doc = lxml.html.parse('url to parse')
content_parsed  = doc.xpath('xpath expre here')

如果您只想清理lxml.html.clean module的html外观。另请注意，ElementSoup使lxml.html能够在必要时使用BeautifulSoup解析器

Answer 3

我有BeautifulSoup的一些经验，并且能够在几分钟内得到结果。以下教程页面非常有用，有很多示例：