我对crawlspider规则有疑问。
这里是我的规则定义;
rules = (
Rule(LinkExtractor(allow=("/liste/.*/department\.aspx\?categoryId=\d+", ))),
Rule(LinkExtractor(allow=("/liste/.*/department\.aspx\?categoryId=.*&pn=\d+", ))),
Rule(LinkExtractor(allow=('/liste/.*/productDetails\.aspx\?productId=.*&categoryId=.*', )), callback='parse_page'),
)
我应该 - >在第一个规则,我想找到类别链接,然后发送请求这些链接,并根据第二个规则查找链接,并从提取的第二个规则发送请求这些链接。最后,我想根据规则3定义和call_back parse_page函数找到链接。
但它不像我想象的那样有效。实际上我无法控制蜘蛛,每次运行时都可以丢弃不同页面而不是所有页面。我想废弃与规则匹配的所有页面。
如何定义我的规则来管理它?