我正在尝试scrapy的规则/链接提取器。
“restrict_css”下的css是正确的,我可以在scrapy shell中使用response.css检索链接,但由于某些原因,当我在一个蜘蛛uner规则和链接提取器中运行它时,不会调用parse_product回调函数。
rules=(
Rule(LinkExtractor(restrict_css='a.i-next')),
Rule(LinkExtractor(restrict_css='div.product-image-wrapper>a'),
callback='parse_product'),
)
def parse_product(self, response):
print("Print anything for testing")
return
谢谢,任何帮助都将不胜感激。
答案 0 :(得分:0)
您的start_urls不符合任何规则。第一条规则适用于下一页,第二条规则适用于产品吗?但您的起始网址并不指向产品类别,只是指向着陆页。您需要直接从产品列表页面网址开始,例如:http://www.orsay.com/de-de/neuheiten/t-shirts/tops.html
或添加其他规则以查找产品详情页面。