从scrapy排除域中的子目录

时间:2018-11-29 03:39:29

标签: python scrapy scrapy-spider

这是我的蜘蛛。它按原样运作良好,但是我想在进行递归调用时限制特定的域。域explore.concordia.ca太大,不包含我需要的信息。

不过,蜘蛛还是会爬行explore.concordia.ca。我试图添加正则表达式[^ explore],但是它也不起作用。您知道我该如何解决吗?

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['https://www.concordia.ca/about.html']
    rules = [Rule(LinkExtractor(), callback='parse', follow=True)]
    allowed_domains = ["concordia.ca"]
    deny_domains = ["explore.concordia.ca"]

0 个答案:

没有答案