我有start_url
名为www.example.edu
首先,我想开始以类似的扩展名在0深度抓取网站。
其次,我想在蜘蛛爬行了20个网站时阻止蜘蛛爬行。
这两个限制是否可以实现?
假设我有这段代码:
class MySpider(scrapy.Spider):
name = 'spiderz'
allowed_domains = ['berkeley.edu']
start_urls = ['http://www.berkeley.edu/',]
我想知道是否可以在start_url
之后抓取,这是一个具有相同扩展名的随机域,例如phoenix.edu然后columbia.edu只使用 .edu 作为规则模式。
我只对域名感兴趣。
我想收集20个带有.edu扩展名的随机域名