如何仅使用特定类别的scrapy抓取链接,并忽略产品页面上的链接?

时间:2015-01-16 08:43:29

标签: web-scraping scrapy scrapy-spider

我想抓取某个类别的产品,但我不希望蜘蛛跟随产品页面本身找到的链接(相关产品来自同一品牌,但型号不同 - 例如,我想要的产品是香水和它作为相关产品有口红)。

该类别的网址为site.com/category_name/,产品网址为site.com/brand_name/product-name-here/。我该如何定义抓取规则?

1 个答案:

答案 0 :(得分:0)

您可以使用规则来定义此类行为。

Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)),
callback='your_callback', follow=False)

这将使用您的回调抓取类别页面,该页面将跟随指向产品页面的链接,而不是来自那里的任何内容。您只需要一些模式来识别网址的类别部分。