Question

我正在尝试使用scrapy创建一个小型网站爬虫。我有100Mbps光纤互联网。

Scrapy开始以每分钟350页的速度进行解析。比速度开始下降，直到它每分钟徘徊20页左右。

我正在使用以下（相对简单的）蜘蛛。

class DefaultSpider(CrawlSpider):

    name = "default"
    session_id = -1
    rules = [Rule(LinkExtractor(allow=()),callback='insert_linkDB',follow=True)]

    db = DBConnector()
    def start_requests(self):
        for url in listurl:
            yield scrapy.Request(url=url, callback=self.insert_linkDB)


    def insert_linkDB(self, response):
        DB.insert(response.url, response.text)
        for link in self.rules[0].link_extractor.extract_links(response):
            if((link.url.find(self.currentDomain)>=0) and (link.url.find("psml")==-1)):
                yield scrapy.Request(url=link.url, callback=self.insert_linkDB)

感谢您的帮助。

5分钟后，Scrapy性能下降

0 个答案: