我正在将Scrapy用于大型项目,并且计算的重要部分用于解析网页。
我想知道Scrapy的css
和xpath
选择器是否针对最佳算法效率进行了优化,还是应该使用恰好在内部使用lxml的BeautifulSoup4
。
答案 0 :(得分:1)
好吧,如果你read the docs,你可以看到:
Scrapy选择器是在lxml库上构建的,这意味着它们在速度和解析准确性方面非常相似。
这意味着如果您使用Scrapy抓取数据,XPath选择器的速度与BS4相同 - 并且您可以获得一些开箱即用的并行性,从而进一步加快您的任务。