Scrapy CrawlSpider不会退出

时间:2018-08-02 16:40:33

标签: python python-3.x scrapy web-crawler scrapy-spider

我对草率的Crawlspider有问题:基本上,如果引发CloseSpider异常,它不会像预期的那样退出。下面是代码:

from scrapy.spiders import CrawlSpider, Rule
from scrapy.exceptions import CloseSpider
from scrapy.linkextractors import LinkExtractor
import re

class RecursiveSpider(CrawlSpider):

    name = 'recursive_spider'
    start_urls = ['https://www.webiste.com/']

    rules = (
                Rule(LinkExtractor(), callback='parse_item', follow=True),
                )

    miss = 0
    hits = 0

    def quit(self):
        print("ABOUT TO QUIT")
        raise CloseSpider('limits_exceeded')


    def parse_item(self, response):
        item = dict()
        item['url'] = response.url
        item['body'] = '\n'.join(response.xpath('//text()').extract())
        try:
            match = re.search(r"[A-za-z]{0,1}edical[a-z]{2}", response.body_as_unicode()).group(0)
        except:
            match = 'NOTHING'

        print("\n")
        print("\n")
        print("\n")
        print("****************************************INFO****************************************")
        if "string" in item['url']:    
            print(item['url'])
            print(match)
            print(self.hits)
            self.hits += 10
            if self.hits > 10:
                print("HITS EXCEEDED")
                self.quit()
        else:
            self.miss += 1
            print(self.miss)
            if self.miss > 10:
                print("MISS EXCEEDED")
                self.quit()
        print("\n")
        print("\n")
        print("\n")

问题是,尽管我可以看到它进入了条件,并且可以看到日志中出现了Eception,但是搜寻器仍在继续爬行。 我用它来运行它:

scrapy crawl recursive_spider

2 个答案:

答案 0 :(得分:1)

我会猜测这是一个scrap脚的案例,只是在关闭时花了太长时间,而不是实际上忽略了该异常。直到运行所有计划的/已发送的请求,引擎才会退出,因此我建议降低CONCURRENT_REQUESTS/CONCURRENT_REQUESTS_PER_DOMAIN设置的值,以查看它是否对您有用。

答案 1 :(得分:0)

您创建了“递归”蜘蛛,因此它可以递归工作。删除“ rules”参数,它将在完全爬网后停止。