应用错误收集

我有start_url名为www.example.edu

首先，我想开始以类似的扩展名在0深度抓取网站。

其次，我想在蜘蛛爬行了20个网站时阻止蜘蛛爬行。

这两个限制是否可以实现？

假设我有这段代码：

class MySpider(scrapy.Spider):
    name = 'spiderz'
    allowed_domains = ['berkeley.edu']
    start_urls = ['http://www.berkeley.edu/',]

我想知道是否可以在start_url之后抓取，这是一个具有相同扩展名的随机域，例如phoenix.edu然后columbia.edu只使用 .edu 作为规则模式。

我只对域名感兴趣。

我想收集20个带有.edu扩展名的随机域名