应用错误收集

可以使用美丽的汤与Scrapy提高性能

时间：2012-11-23 04:29:34

标签： python beautifulsoup scrapy

我正在用scrapy抓取所有东西。我看到很多人都使用漂亮的汤进行解析。

我只是想知道在速度，效率或更多电器等方面有任何优势，这有助于我创造蜘蛛和爬虫或单独的scrapy应该足够我

2 个答案:

答案 0 :(得分：2)

使用BeautifulSoup而不是Scrapy内置解析器选择器机制的性能取决于许多因素：例如，它允许使用different parsers; lxml是他们中最快的。还有some other things that can be done来改善BeautifulSoup的表现。总的来说，你可能达到类似的性能，但一般来说，使用BeautifulSoup不会带来速度优势。

然而，BeautifulSoup确实提供了Scrapy不提供的一些有利的替代提取API和选择器机制。

特别是，CSS selectors是您可能非常方便的。

答案 1 :(得分：0)

答案是你应该尝试使用 HtmlSelector 解析几页，然后使用美丽的汤。并找到一些统计数据。

2，大多数人使用美丽的汤甚至 lxml 进行解析，因为他们已经习惯使用它。

Scrapy的基本动机是 Crawling 如果你对Xpath感到不舒服，你可以选择美丽的汤， lxml （虽然lxml包也支持xpath）甚至仅正则表达式 解析。