可以使用美丽的汤与Scrapy提高性能

时间:2012-11-23 04:29:34

标签: python beautifulsoup scrapy

我正在用scrapy抓取所有东西。 我看到很多人都使用漂亮的汤进行解析。

我只是想知道在速度,效率或更多电器等方面有任何优势,这有助于我创造蜘蛛和爬虫或单独的scrapy应该足够我

2 个答案:

答案 0 :(得分:2)

使用BeautifulSoup而不是Scrapy内置解析器选择器机制的性能取决于许多因素:例如,它允许使用different parsers; lxml是他们中最快的。还有some other things that can be done来改善BeautifulSoup的表现。总的来说,你可能达到类似的性能,但一般来说,使用BeautifulSoup不会带来速度优势。

然而,BeautifulSoup确实提供了Scrapy不提供的一些有利的替代提取API和选择器机制。

特别是,CSS selectors是您可能非常方便的。

答案 1 :(得分:0)

答案是你应该尝试使用 HtmlSelector 解析几页,然后使用美丽的汤。并找到一些统计数据。

2,大多数人使用美丽的汤甚至 lxml 进行解析,因为他们已经习惯使用它。

Scrapy的基本动机是 Crawling 如果你对Xpath感到不舒服,你可以选择美丽的汤 lxml (虽然lxml包也支持xpath)甚至仅正则表达式 解析