我需要做很多html解析/疤痕/搜索引擎/抓取。
目前有很多图书馆喜欢Scrapy,Beautiful Soup,lxml,lxml2,pyquery。
现在我不想尝试其中的每一个,然后再决定。基本上我想跟进一个,然后详细研究,然后最常使用。
那么我应该去哪个库可以执行上面提到的所有功能。即使可能存在差异问题的差异解决方案。但我希望onelibrary可以做所有的事情,即使它需要时间编码但应该是可能的
是否可以在lxml中进行索引? PyQuery是否与lxml相同或不同?
答案 0 :(得分:1)
我正在使用美丽的汤,我很高兴。到目前为止,它满足了我所有的刮擦需求。两个主要好处:
答案 1 :(得分:1)
由于许多HTML文档格式不正确,而是一堆标记(有时甚至没有正确嵌套),您可能希望使用BeautifulSoup而不是基于xml的解析器之一。