应用错误收集

时间：2011-06-06 06:21:23

标签： python parsing search web-crawler

我需要做很多html解析/疤痕/搜索引擎/抓取。

目前有很多图书馆喜欢Scrapy，Beautiful Soup，lxml，lxml2，pyquery。

现在我不想尝试其中的每一个，然后再决定。基本上我想跟进一个，然后详细研究，然后最常使用。

那么我应该去哪个库可以执行上面提到的所有功能。即使可能存在差异问题的差异解决方案。但我希望onelibrary可以做所有的事情，即使它需要时间编码但应该是可能的

是否可以在lxml中进行索引？ PyQuery是否与lxml相同或不同？

答案 0 :(得分：1)

我正在使用美丽的汤，我很高兴。到目前为止，它满足了我所有的刮擦需求。两个主要好处：

答案 1 :(得分：1)

由于许多HTML文档格式不正确，而是一堆标记（有时甚至没有正确嵌套），您可能希望使用BeautifulSoup而不是基于xml的解析器之一。