Scrapy网络爬虫的css& xpath选择器vs BeautifulSoup

时间:2015-07-12 06:36:51

标签: python xpath beautifulsoup scrapy

我正在将Scrapy用于大型项目,并且计算的重要部分用于解析网页。

我想知道Scrapy的cssxpath选择器是否针对最佳算法效率进行了优化,还是应该使用恰好在内部使用lxml的BeautifulSoup4

1 个答案:

答案 0 :(得分:1)

好吧,如果你read the docs,你可以看到:

  

Scrapy选择器是在lxml库上构建的,这意味着它们在速度和解析准确性方面非常相似。

这意味着如果您使用Scrapy抓取数据,XPath选择器的速度与BS4相同 - 并且您可以获得一些开箱即用的并行性,从而进一步加快您的任务。