这是我的蜘蛛。它按原样运作良好,但是我想在进行递归调用时限制特定的域。域explore.concordia.ca
太大,不包含我需要的信息。
不过,蜘蛛还是会爬行explore.concordia.ca
。我试图添加正则表达式[^ explore],但是它也不起作用。您知道我该如何解决吗?
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = ['https://www.concordia.ca/about.html']
rules = [Rule(LinkExtractor(), callback='parse', follow=True)]
allowed_domains = ["concordia.ca"]
deny_domains = ["explore.concordia.ca"]