我需要从网络中非常复杂的HTML页面中提取一些信息。我不需要抓取或任何东西,只需要一些XPath选择器或类似的东西。
哪个库是设置和编码最快的(即快速获得结果!)? Scrapy,BeautifulSoap,...,还是基本的HTMLParser?
答案 0 :(得分:3)
BeautifulSoup
很棒。试试吧。它有时可以修复错误的HTML。
答案 1 :(得分:2)
lxml很棒。试试吧。
示例:
import lxml.html
doc = lxml.html.parse('url to parse')
content_parsed = doc.xpath('xpath expre here')
如果您只想清理lxml.html.clean module的html外观。另请注意,ElementSoup使lxml.html能够在必要时使用BeautifulSoup解析器
答案 2 :(得分:2)
我有BeautifulSoup
的一些经验,并且能够在几分钟内得到结果。以下教程页面非常有用,有很多示例: