如果我必须为python选择一个html抓取库,我应该选择哪个

时间:2011-06-06 06:21:23

标签: python parsing search web-crawler

我需要做很多html解析/疤痕/搜索引擎/抓取。

目前有很多图书馆喜欢Scrapy,Beautiful Soup,lxml,lxml2,pyquery。

现在我不想尝试其中的每一个,然后再决定。基本上我想跟进一个,然后详细研究,然后最常使用。

那么我应该去哪个库可以执行上面提到的所有功能。即使可能存在差异问题的差异解决方案。但我希望onelibrary可以做所有的事情,即使它需要时间编码但应该是可能的

是否可以在lxml中进行索引? PyQuery是否与lxml相同或不同?

2 个答案:

答案 0 :(得分:1)

我正在使用美丽的汤,我很高兴。到目前为止,它满足了我所有的刮擦需求。两个主要好处:

  • 它非常适合处理非完美的HTML。由于浏览器非常宽松,许多HTML文档并非100%格式良好
  • 除了高级访问API之外,它还具有低级API,如果不直接提供某些特定的抓取需求,则可以扩展它。

答案 1 :(得分:1)

由于许多HTML文档格式不正确,而是一堆标记(有时甚至没有正确嵌套),您可能希望使用BeautifulSoup而不是基于xml的解析器之一。