Scrapy:是否可以使用url扩展来抓取不同的网站?

时间:2015-08-22 19:13:21

标签: python scrapy

我有start_url名为www.example.edu

首先,我想开始以类似的扩展名在0深度抓取网站。

其次,我想在蜘蛛爬行了20个网站时阻止蜘蛛爬行。

这两个限制是否可以实现?

假设我有这段代码:

class MySpider(scrapy.Spider):
    name = 'spiderz'
    allowed_domains = ['berkeley.edu']
    start_urls = ['http://www.berkeley.edu/',]

我想知道是否可以在start_url之后抓取,这是一个具有相同扩展名的随机域,例如phoenix.edu然后columbia.edu只使用 .edu 作为规则模式。

我只对域名感兴趣。

我想收集20个带有.edu扩展名的随机域名

enter image description here

0 个答案:

没有答案