应用错误收集

这是我的蜘蛛。它按原样运作良好，但是我想在进行递归调用时限制特定的域。域explore.concordia.ca太大，不包含我需要的信息。

不过，蜘蛛还是会爬行explore.concordia.ca。我试图添加正则表达式[^ explore]，但是它也不起作用。您知道我该如何解决吗？

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['https://www.concordia.ca/about.html']
    rules = [Rule(LinkExtractor(), callback='parse', follow=True)]
    allowed_domains = ["concordia.ca"]
    deny_domains = ["explore.concordia.ca"]

从scrapy排除域中的子目录

0 个答案: