scrapy crawlspider规则如何运作?

时间:2015-04-26 12:59:41

标签: scrapy scrapy-spider

我对crawlspider规则有疑问。

这里是我的规则定义;

rules = (

    Rule(LinkExtractor(allow=("/liste/.*/department\.aspx\?categoryId=\d+", ))),

    Rule(LinkExtractor(allow=("/liste/.*/department\.aspx\?categoryId=.*&pn=\d+", ))),

    Rule(LinkExtractor(allow=('/liste/.*/productDetails\.aspx\?productId=.*&categoryId=.*', )), callback='parse_page'),

)

我应该 - >在第一个规则,我想找到类别链接,然后发送请求这些链接,并根据第二个规则查找链接,并从提取的第二个规则发送请求这些链接。最后,我想根据规则3定义和call_back parse_page函数找到链接。

但它不像我想象的那样有效。实际上我无法控制蜘蛛,每次运行时都可以丢弃不同页面而不是所有页面。我想废弃与规则匹配的所有页面。

如何定义我的规则来管理它?

0 个答案:

没有答案