我正在用scrapy抓取所有东西。 我看到很多人都使用漂亮的汤进行解析。
我只是想知道在速度,效率或更多电器等方面有任何优势,这有助于我创造蜘蛛和爬虫或单独的scrapy应该足够我
答案 0 :(得分:2)
使用BeautifulSoup而不是Scrapy内置解析器选择器机制的性能取决于许多因素:例如,它允许使用different parsers; lxml是他们中最快的。还有some other things that can be done来改善BeautifulSoup的表现。总的来说,你可能达到类似的性能,但一般来说,使用BeautifulSoup不会带来速度优势。
然而,BeautifulSoup确实提供了Scrapy不提供的一些有利的替代提取API和选择器机制。
特别是,CSS selectors是您可能非常方便的。
答案 1 :(得分:0)
答案是你应该尝试使用 HtmlSelector 解析几页,然后使用美丽的汤。并找到一些统计数据。
2,大多数人使用美丽的汤甚至 lxml 进行解析,因为他们已经习惯使用它。
Scrapy的基本动机是 Crawling 如果你对Xpath感到不舒服,你可以选择美丽的汤, lxml (虽然lxml包也支持xpath)甚至仅正则表达式 解析。