我正在尝试使用scrapy创建一个小型网站爬虫。我有100Mbps光纤互联网。
Scrapy开始以每分钟350页的速度进行解析。 比速度开始下降,直到它每分钟徘徊20页左右。
我正在使用以下(相对简单的)蜘蛛。
class DefaultSpider(CrawlSpider):
name = "default"
session_id = -1
rules = [Rule(LinkExtractor(allow=()),callback='insert_linkDB',follow=True)]
db = DBConnector()
def start_requests(self):
for url in listurl:
yield scrapy.Request(url=url, callback=self.insert_linkDB)
def insert_linkDB(self, response):
DB.insert(response.url, response.text)
for link in self.rules[0].link_extractor.extract_links(response):
if((link.url.find(self.currentDomain)>=0) and (link.url.find("psml")==-1)):
yield scrapy.Request(url=link.url, callback=self.insert_linkDB)
感谢您的帮助。