Scrapy在长时间运行过程中多次抓取

时间:2016-02-09 10:03:21

标签: python scrapy web-crawler reactor

所以,我创建了这个类,以便我可以使用Scrapy按需抓取:

from scrapy import signals
from scrapy.crawler import CrawlerProcess, Crawler
from scrapy.settings import Settings


class NewsCrawler(object):

    def __init__(self, spiders=[]):
        self.spiders = spiders
        self.settings = Settings()

    def crawl(self, start_date, end_date):
        crawled_items = []

        def add_item(item):
            crawled_items.append(item)

        process = CrawlerProcess(self.settings)

        for spider in self.spiders:
            crawler = Crawler(spider, self.settings)
            crawler.signals.connect(add_item, signals.item_scraped)
            process.crawl(crawler, start_date=start_date, end_date=end_date)

        process.start()

        return crawled_items

基本上,我有一个漫长的过程,我会多次调用上面的类'crawl方法,如下所示:

import time


crawler = NewsCrawler(spiders=[Spider1, Spider2])

while True:
    items = crawler.crawl(start_date, end_date)
    # do something with crawled items ...
    time.sleep(3600)

问题是,第二次调用crawl时,会发生此错误:twisted.internet.error.ReactorNotRestartable

从我收集到的,这是因为反应堆在停止后无法运行。有没有解决办法?

谢谢!

1 个答案:

答案 0 :(得分:2)

这是scrapy(扭曲)的限制,并且难以将scrapy用作lib。

您可以做的是分叉一个运行爬虫的新进程,并在爬网结束时停止反应器。然后,您可以等待加入并在爬网完成后生成新进程。如果要处理主线程中的项目,可以将结果发布到队列。我建议您为您的商品使用自定义管道。

请看一下我的以下答案:https://stackoverflow.com/a/22202877/2208253

您应该能够应用相同的原则。但你宁愿使用多处理而不是台球。