scrapy - scrapy crawlspider规则如何运作？

我对crawlspider规则有疑问。

这里是我的规则定义;

rules = (

    Rule(LinkExtractor(allow=("/liste/.*/department\.aspx\?categoryId=\d+", ))),

    Rule(LinkExtractor(allow=("/liste/.*/department\.aspx\?categoryId=.*&pn=\d+", ))),

    Rule(LinkExtractor(allow=('/liste/.*/productDetails\.aspx\?productId=.*&categoryId=.*', )), callback='parse_page'),

)

我应该 - ＆gt;在第一个规则，我想找到类别链接，然后发送请求这些链接，并根据第二个规则查找链接，并从提取的第二个规则发送请求这些链接。最后，我想根据规则3定义和call_back parse_page函数找到链接。

但它不像我想象的那样有效。实际上我无法控制蜘蛛，每次运行时都可以丢弃不同页面而不是所有页面。我想废弃与规则匹配的所有页面。

如何定义我的规则来管理它？

scrapy crawlspider规则如何运作？

0 个答案: