我想抓取某个类别的产品,但我不希望蜘蛛跟随产品页面本身找到的链接(相关产品来自同一品牌,但型号不同 - 例如,我想要的产品是香水和它作为相关产品有口红)。
该类别的网址为site.com/category_name/
,产品网址为site.com/brand_name/product-name-here/
。我该如何定义抓取规则?
答案 0 :(得分:0)
您可以使用规则来定义此类行为。
Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)),
callback='your_callback', follow=False)
这将使用您的回调抓取类别页面,该页面将跟随指向产品页面的链接,而不是来自那里的任何内容。您只需要一些模式来识别网址的类别部分。